基于元数据分析的新闻事件检测方法

    公开(公告)号:CN101174273B

    公开(公告)日:2010-06-23

    申请号:CN200710178687.8

    申请日:2007-12-04

    Applicant: 清华大学

    Abstract: 基于元数据分析的新闻事件检测方法属于数据挖掘领域。本发明特征在于,它是采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,并给出了改进的新闻特征词的IDF(逆文本频率指数)计算方式,并且在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,将由新闻报道聚类,并对应为相应的新闻事件。该方法与传统的事件检测方法相比F值(一种用来评估聚类品质好坏的标准)有较大的提高。

    基于元数据分析的新闻事件检测方法

    公开(公告)号:CN101174273A

    公开(公告)日:2008-05-07

    申请号:CN200710178687.8

    申请日:2007-12-04

    Applicant: 清华大学

    Abstract: 基于元数据分析的新闻事件检测方法属于数据挖掘领域。本发明特征在于,它是采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,并给出了改进的新闻特征词的IDF(逆文本频率指数)计算方式,并且在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,将由新闻报道聚类,并对应为相应的新闻事件。该方法与传统的事件检测方法相比F值(一种用来评估聚类品质好坏的标准)有较大的提高。

Patent Agency Ranking