-
公开(公告)号:CN107273412B
公开(公告)日:2019-09-27
申请号:CN201710307520.0
申请日:2017-05-04
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F16/35
Abstract: 本发明的实施例提供了一种文本数据的聚类方法、装置和系统。其中,所述方法包括:子节点接收主节点针对海量文本数据进行拆分得到的待聚类的文本子集合;所述子节点将所述文本子集合中的每个文本分别与所有子节点的文本子集合中的每个文本进行文本相似度的比对,得到文本对的相似关系集合;所述子节点将所述相似关系集合发送至所述主节点,以使得所述主节点根据所有子节点发送的所述相似关系集合对所述海量文本数据进行聚类,得到所述海量文本数据的聚类结果。本发明通过引入spark分布式框架,对海量文本数据进行分布式聚类,从而获得对海量文本数据进行聚类的能力。
-
公开(公告)号:CN107273412A
公开(公告)日:2017-10-20
申请号:CN201710307520.0
申请日:2017-05-04
Applicant: 北京拓尔思信息技术股份有限公司
IPC: G06F17/30
Abstract: 本发明的实施例提供了一种文本数据的聚类方法、装置和系统。其中,所述方法包括:子节点接收主节点针对海量文本数据进行拆分得到的待聚类的文本子集合;所述子节点将所述文本子集合中的每个文本分别与所有子节点的文本子集合中的每个文本进行文本相似度的比对,得到文本对的相似关系集合;所述子节点将所述相似关系集合发送至所述主节点,以使得所述主节点根据所有子节点发送的所述相似关系集合对所述海量文本数据进行聚类,得到所述海量文本数据的聚类结果。本发明通过引入spark分布式框架,对海量文本数据进行分布式聚类,从而获得对海量文本数据进行聚类的能力。
-