一种文本关键词的马尔可夫矩阵离线修正方法

    公开(公告)号:CN103336765B

    公开(公告)日:2016-04-27

    申请号:CN201310245629.8

    申请日:2013-06-20

    Applicant: 上海大学

    Abstract: 本发明公开了一种文本关键词的马尔可夫矩阵离线修正方法,其步骤:(1)将用户每次搜索下载的各文本记为用户搜索的历史文本集合;(2)抽取出用户搜索的历史文本集合中有交集的关键词集合;(3)将抽取到的历史文本集中有交集的关键词采用马尔可夫矩阵来表示;(4)建立修正词的选取规则,各有交集的关键词按修正词的选取规则从各有交集的关键词中选出修正词;(5)用户输入新的关键词并进行下一次新的搜索时,查找对应的修正词,给予修正并将修正后结果返回。该方法在于抽取的关键词的来自源是用户的历史记录,用户自己行为的记录,采用马尔可夫矩阵表示,能够准确地分析领域知识结构,给予修正,有效地提高用户搜索效率。

    一种基于主题模型的文本关键词提取方法

    公开(公告)号:CN103744835B

    公开(公告)日:2016-12-07

    申请号:CN201410000751.3

    申请日:2014-01-02

    Applicant: 上海大学

    Inventor: 陈雪 汤文清

    Abstract: 本发明公开了一种基于主题模型的文本关键词提取方法,该方法首先利用主题模型的方法从大量文本训练集中由主题模型训练得到的词项与主题之间的训练文本集的词项与主题的概率矩阵WT,进而得到候选关键词集合A中词项与主题的概率向量的集合所组成的候选的关键词的词项与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过候选关键词词项的权重向量和文本的主题向量,利用候选关键词语主题的概率矩阵B进行循环计算操作,得到最终修正后的文本主题向量和词项权重比例向量,进而提取出文本的关键词。该方法降低文本由于不同长度所提取关键词的误差,提取更能适合表达文本内容的关键词。

    一种文本关键词的马尔可夫矩阵离线修正方法

    公开(公告)号:CN103336765A

    公开(公告)日:2013-10-02

    申请号:CN201310245629.8

    申请日:2013-06-20

    Applicant: 上海大学

    Abstract: 本发明公开了一种文本关键词的马尔可夫矩阵离线修正方法,其步骤:(1)将用户每次搜索下载的各文本记为用户搜索的历史文本集合;(2)抽取出用户搜索的历史文本集合中有交集的关键词集合;(3)将抽取到的历史文本集中有交集的关键词采用马尔可夫矩阵来表示;(4)建立修正词的选取规则,各有交集的关键词按修正词的选取规则从各有交集的关键词中选出修正词;(5)用户输入新的关键词并进行下一次新的搜索时,查找对应的修正词,给予修正并将修正后结果返回。该方法在于抽取的关键词的来自源是用户的历史记录,用户自己行为的记录,采用马尔可夫矩阵表示,能够准确地分析领域知识结构,给予修正,有效地提高用户搜索效率。

    一种对文本中关键词重要性的排序方法

    公开(公告)号:CN103744951B

    公开(公告)日:2016-11-30

    申请号:CN201410000706.8

    申请日:2014-01-02

    Applicant: 上海大学

    Inventor: 陈雪 汤文清

    Abstract: 本发明的构公开了一种对文本中关键词重要性的排序方法,该方法首先对一篇文本进行分词操作,然后去除停用词,得到该文本的关键词集合;然后统计关键词的词频,得到关键词对应词频向量;将具有断句功能的标点符号设为共现窗口的分界端点,统计词项之间的共现信息,得到关键词的共现矩阵,并从关键词的共现矩阵,得到关键词的共现的分布情况的向量;对关键词的共现矩阵进行处理,得到由关键词共现关系判断出的关键词重要性向量;然后将由关键词共现判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行处整合,得到关键词在文本中综合的重要性;最后根据计算所得的关键词的重要性大小,对关键词进行排序。该方法使用多种信息判断文本中关键词的重要性,提高判断在文本中关键词重要性的准确度和可信度。

    一种基于改进的TF-IDF方法的检索词实时修正方法

    公开(公告)号:CN103530344A

    公开(公告)日:2014-01-22

    申请号:CN201310464625.9

    申请日:2013-10-09

    Applicant: 上海大学

    CPC classification number: G06F17/30699

    Abstract: 本发明公开了一种基于改进的TF-IDF方法的检索词实时修正方法,该方法步骤为:(1)用户输入检索词,计算机系统对所有的检索资源搜索,返回给用户检索结果,将当前页面结果中包含检索词的文本组成文本集合;(2)下载用户想要的文本;(3)由下载的文本集合生成关键词集合W;(4)采用改进后的TF-IDF方法计算关键词集合W中各关键词的TF-IDF值;(5)选出TF-IDF值最大的关键词,记为r;(6)使用关键词r修正用户输入的检索词,在用户点击下一个网页时,使用新的检索词进行检索,并返回检索结果。本发明能在检索过程中逐步的帮助用户检索到所要的文本,从而使用户检索的过程更加高效和准确,提高用户检索效率和质量。

    一种对文本中关键词重要性的排序方法

    公开(公告)号:CN103744951A

    公开(公告)日:2014-04-23

    申请号:CN201410000706.8

    申请日:2014-01-02

    Applicant: 上海大学

    Inventor: 陈雪 汤文清

    CPC classification number: G06F16/3334

    Abstract: 本发明公开了一种对文本中关键词重要性的排序方法,该方法首先对一篇文本进行分词操作,然后去除停用词,得到该文本的关键词集合;然后统计关键词的词频,得到关键词对应词频向量;将具有断句功能的标点符号设为共现窗口的分界端点,统计词项之间的共现信息,得到关键词的共现矩阵,并从关键词的共现矩阵,得到关键词的共现的分布情况的向量;对关键词的共现矩阵进行处理,得到由关键词共现关系判断出的关键词重要性向量;然后将由关键词共现判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行处整合,得到关键词在文本中综合的重要性;最后根据计算所得的关键词的重要性大小,对关键词进行排序。该方法使用多种信息判断文本中关键词的重要性,提高判断在文本中关键词重要性的准确度和可信度。

    一种基于主题模型的文本关键词提取方法

    公开(公告)号:CN103744835A

    公开(公告)日:2014-04-23

    申请号:CN201410000751.3

    申请日:2014-01-02

    Applicant: 上海大学

    Inventor: 陈雪 汤文清

    Abstract: 本发明公开了一种基于主题模型的文本关键词提取方法,该方法首先利用主题模型的方法从大量文本训练集中由主题模型训练得到的词项与主题之间的训练文本集的词项与主题的概率矩阵WT,进而得到候选关键词集合A中词项与主题的概率向量的集合所组成的候选的关键词的词项与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过候选关键词词项的权重向量和文本的主题向量,利用候选关键词语主题的概率矩阵B进行循环计算操作,得到最终修正后的文本主题向量和词项权重比例向量,进而提取出文本的关键词。该方法降低文本由于不同长度所提取关键词的误差,提取更能适合表达文本内容的关键词。

Patent Agency Ranking