一种基于词频和多元文法的新闻关键词抽取方法

    公开(公告)号:CN101196904A

    公开(公告)日:2008-06-11

    申请号:CN200710177074.2

    申请日:2007-11-09

    Applicant: 清华大学

    Abstract: 一种基于词频和多元文法的新闻关键词抽取方法属于自然语言处理技术领域,其特征在于,通过研究关键词的特征词性,利用计算机辅助挖掘,提取出关键词的多元文法的潜在词性模式,并将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。本申请提出一个改进的单文本词汇频率/逆文本频率值(tf/idf)公式,引入有针对性的特征,对候选关键词进行评分,得出候选关键词的排名,进行结果优化后给出该新闻文档的关键词。该方法与传统的基于单文本词汇频率/逆文本频率值(tf/idf)的关键词抽取方法比较,在准确率相同的情况下,召回率更高些。

    一种基于词频和多元文法的新闻关键词抽取方法

    公开(公告)号:CN100520782C

    公开(公告)日:2009-07-29

    申请号:CN200710177074.2

    申请日:2007-11-09

    Applicant: 清华大学

    Abstract: 一种基于词频和多元文法的新闻关键词抽取方法属于自然语言处理技术领域,其特征在于,通过研究关键词的特征词性,利用计算机辅助挖掘,提取出关键词的多元文法的潜在词性模式,并将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。本申请提出一个改进的单文本词汇频率/逆文本频率值(tf/idf)公式,引入有针对性的特征,对候选关键词进行评分,得出候选关键词的排名,进行结果优化后给出该新闻文档的关键词。该方法与传统的基于单文本词汇频率/逆文本频率值(tf/idf)的关键词抽取方法比较,在准确率相同的情况下,召回率更高些。

Patent Agency Ranking