-
公开(公告)号:CN102779190A
公开(公告)日:2012-11-14
申请号:CN201210229377.5
申请日:2012-07-03
Applicant: 北京大学
IPC: G06F17/30
Abstract: 一种时序海量网络新闻的热点事件快速检测方法,包括:将网络新闻文本序列按时间间隔分为区块序列;对第一个区块的新闻文本按狄利克雷过程进行聚类,形成聚类簇集合;把前一区块聚类后的结果进行衰减、过滤,作为后续区块的先验分布,然后对后续区块按按狄利克雷过程进行聚类;对每个聚类簇按照报道量进行事件的热度排序;将排序值最高的T个聚类簇作为热点事件,选取每个聚类簇中tf-idf值最高的M个特征作为热点的关键词,对热点进行展示。本发明可以大大提高网络新闻聚类的效率;同时内存的占用不随数据量的增加而线性增加,适用于大规模文本数据分析。
-
公开(公告)号:CN102779190B
公开(公告)日:2014-12-03
申请号:CN201210229377.5
申请日:2012-07-03
Applicant: 北京大学
IPC: G06F17/30
Abstract: 一种时序海量网络新闻的热点事件快速检测方法,包括:将网络新闻文本序列按时间间隔分为区块序列;对第一个区块的新闻文本按狄利克雷过程进行聚类,形成聚类簇集合;把前一区块聚类后的结果进行衰减、过滤,作为后续区块的先验分布,然后对后续区块按按狄利克雷过程进行聚类;对每个聚类簇按照报道量进行事件的热度排序;将排序值最高的T个聚类簇作为热点事件,选取每个聚类簇中tf-idf值最高的M个特征作为热点的关键词,对热点进行展示。本发明可以大大提高网络新闻聚类的效率;同时内存的占用不随数据量的增加而线性增加,适用于大规模文本数据分析。
-