-
公开(公告)号:CN114611038B
公开(公告)日:2024-10-15
申请号:CN202210094439.X
申请日:2022-01-26
Applicant: 北京邮电大学
IPC: G06F16/958 , G06F18/23
Abstract: 本申请提供一种网页聚类方法及相关装置,其中,所述方法包括:将同类的待聚类网页数据归类为一簇,并设置相应的簇心,通过待聚类网页和各个已有簇的簇心间进行比较,对待聚类网页进行聚类。其中:通过DOM树尺寸的预比较,减少了距离计算的次数;通过提出层次分布距离的定义并以此作为DOM树相似程度的衡量方法,使得所提出方法在具有较高执行效率的同时,能够保证更优的聚类效果。
-
公开(公告)号:CN114611038A
公开(公告)日:2022-06-10
申请号:CN202210094439.X
申请日:2022-01-26
Applicant: 北京邮电大学
IPC: G06F16/958 , G06K9/62
Abstract: 本申请提供一种网页聚类方法及相关装置,其中,所述方法包括:将同类的待聚类网页数据归类为一簇,并设置相应的簇心,通过待聚类网页和各个已有簇的簇心间进行比较,对待聚类网页进行聚类。其中:通过DOM树尺寸的预比较,减少了距离计算的次数;通过提出层次分布距离的定义并以此作为DOM树相似程度的衡量方法,使得所提出方法在具有较高执行效率的同时,能够保证更优的聚类效果。
-