-
公开(公告)号:CN109784354A
公开(公告)日:2019-05-21
申请号:CN201711125165.1
申请日:2017-11-14
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团公司
IPC: G06K9/62
Abstract: 本发明实施例中提供一种基于改进分类效用的无参数聚类方法及电子设备,用以解决现有技术中存在通过现有的聚类方法划分类别时得到的聚类结果的准确性较低的技术问题。其中,方法包括确定多个待聚类实例对应的多个类向量;基于由多个类向量确定的相似度矩阵对多个待聚类实例进行至少一次合并,获得至少一个合并结果,并计算每个合并结果对应的分类效用值,分类效用值用于指示多个待聚类实例的基本层次类别;若至少一个合并结果中任一合并结果表明多个待聚类实例对应的类别个数小于等于预设类别个数,或者多个待聚类实例对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,聚类结果为分类效用值最大时对应的合并结果。
-
公开(公告)号:CN108614825B
公开(公告)日:2022-04-15
申请号:CN201611137455.3
申请日:2016-12-12
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团公司
IPC: G06F16/958 , G06F40/289 , G06F40/216
Abstract: 本发明实施例公开了一种网页特征提取方法和装置,根据网页信息的位置架构将目标网页分为多个文档部分;分别对多个文档部分进行分词处理,对分词处理结果进行统计,获得与多个文档部分对应的多个集合,根据第一集合中与特征词对应的次数确定基础位置权重值,第一集合为所述多个集合中数据对最多的集合;根据基础位置权重值、预设权重比例值和多个集合中除第一集合外的所有集合,确定多个集合中除第一集合外的所有集合的权重值;将多个集合和多个集合中除第一集合外的所有集合的权重值进行整合处理,获得目标网页的特征向量,以使得根据特征向量对网页进行特征分析。
-
公开(公告)号:CN109784354B
公开(公告)日:2021-07-09
申请号:CN201711125165.1
申请日:2017-11-14
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团公司
IPC: G06K9/62
Abstract: 本发明实施例中提供一种基于改进分类效用的无参数聚类方法及电子设备,用以解决现有技术中存在通过现有的聚类方法划分类别时得到的聚类结果的准确性较低的技术问题。其中,方法包括确定多个待聚类实例对应的多个类向量;基于由多个类向量确定的相似度矩阵对多个待聚类实例进行至少一次合并,获得至少一个合并结果,并计算每个合并结果对应的分类效用值,分类效用值用于指示多个待聚类实例的基本层次类别;若至少一个合并结果中任一合并结果表明多个待聚类实例对应的类别个数小于等于预设类别个数,或者多个待聚类实例对应的至少两个类别中两两类别之间的最大相似度为零,则输出聚类结果,聚类结果为分类效用值最大时对应的合并结果。
-
公开(公告)号:CN108614825A
公开(公告)日:2018-10-02
申请号:CN201611137455.3
申请日:2016-12-12
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团公司
Abstract: 本发明实施例公开了一种网页特征提取方法和装置,根据网页信息的位置架构将目标网页分为多个文档部分;分别对多个文档部分进行分词处理,对分词处理结果进行统计,获得与多个文档部分对应的多个集合,根据第一集合中与特征词对应的次数确定基础位置权重值,第一集合为所述多个集合中数据对最多的集合;根据基础位置权重值、预设权重比例值和多个集合中除第一集合外的所有集合,确定多个集合中除第一集合外的所有集合的权重值;将多个集合和多个集合中除第一集合外的所有集合的权重值进行整合处理,获得目标网页的特征向量,以使得根据特征向量对网页进行特征分析。
-
-
-