-
公开(公告)号:CN102929889A
公开(公告)日:2013-02-13
申请号:CN201110229793.0
申请日:2011-08-11
Applicant: 中兴通讯股份有限公司
IPC: G06F17/30
Abstract: 本申请公开了一种完善社区网络的方法和系统以及网页相似度计算方法和系统,网页相似度的计算方法包括如下步骤:提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。
-
公开(公告)号:CN102929889B
公开(公告)日:2017-08-25
申请号:CN201110229793.0
申请日:2011-08-11
Applicant: 中兴通讯股份有限公司
IPC: G06F17/30
Abstract: 本申请公开了一种完善社区网络的方法和系统以及网页相似度计算方法和系统,网页相似度的计算方法包括如下步骤:提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。
-
公开(公告)号:CN102915315A
公开(公告)日:2013-02-06
申请号:CN201110224462.8
申请日:2011-08-05
Applicant: 中兴通讯股份有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种对多个网页进行分类的方法及系统,所述多个网页为与一主题相关的网页,所述主题包括至少两个版本,该方法包括如下步骤:获得所述多个网页,并基于所述多个网页,获得数量与所述多个网页一致的多个文档;对所述多个文档中的每个文档进行处理,获得数量与所述多个文档一致的多个特征单元集,所述多个特征单元集中的每个特征单元集都包括有至少一个特征单元,所述至少一个特征单元用来体现对应网页的特征;计算所述每个特征单元集中的每个特征单元的特征值;基于所有所述每个特征单元集中的每个特征单元的特征值,进行文本聚类,将所述多个网页中的每个网页归到所述至少两个版本中的一个版本。
-
-