一种从文档集中挖掘特征词的系统和方法

    公开(公告)号:CN104573027A

    公开(公告)日:2015-04-29

    申请号:CN201510017522.7

    申请日:2015-01-13

    Applicant: 清华大学

    CPC classification number: G06F17/30666 G06F17/30616

    Abstract: 本发明公开了一种从文档集中挖掘特征词的系统和方法,其中所述方法包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明所提供的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。

    一种从文档集中挖掘特征词的系统和方法

    公开(公告)号:CN104573027B

    公开(公告)日:2018-07-24

    申请号:CN201510017522.7

    申请日:2015-01-13

    Applicant: 清华大学

    Abstract: 本发明公开了一种从文档集中挖掘特征词的系统和方法,其中所述方法包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明所提供的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。

Patent Agency Ranking