提取文档中关键词的方法及装置

    公开(公告)号:CN105069143A

    公开(公告)日:2015-11-18

    申请号:CN201510512363.8

    申请日:2015-08-19

    Inventor: 姜迪 石磊 林鸿宇

    CPC classification number: G06F16/36 G06F16/313

    Abstract: 本发明公开了一种提取文档中关键词的方法及装置,其中所述方法包括:根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;计算所述词向量和主题向量之间的距离;根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。本发明实施例能够提取出的精确表达文档信息的关键词信息。

    文档主题挖掘方法及装置

    公开(公告)号:CN105243083A

    公开(公告)日:2016-01-13

    申请号:CN201510566787.2

    申请日:2015-09-08

    Inventor: 姜迪 石磊

    CPC classification number: G06F17/30616 G06F17/2715

    Abstract: 本申请提出一种文档主题挖掘方法和装置,其中,该方法包括:根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。实现了基于PLSA算法更加全面精确的挖掘文档主题,提高了文档主题内容的相关性,从而使搜索引擎的结果更接近文档的语义信息。

    提取文档关键句的方法及装置

    公开(公告)号:CN105243053B

    公开(公告)日:2018-02-09

    申请号:CN201510587652.4

    申请日:2015-09-15

    Abstract: 本发明公开了一种提取文档关键句的方法及装置,其中所述方法包括:根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;计算所述句子向量和所述文档向量之间的相关性;选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。本发明实施例能够提取出的精确表达文档信息的关键句。

    提取文档中关键词的方法及装置

    公开(公告)号:CN105069143B

    公开(公告)日:2019-07-23

    申请号:CN201510512363.8

    申请日:2015-08-19

    Inventor: 姜迪 石磊 林鸿宇

    Abstract: 本发明公开了一种提取文档中关键词的方法及装置,其中所述方法包括:根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;计算所述词向量和主题向量之间的距离;根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。本发明实施例能够提取出的精确表达文档信息的关键词信息。

    文档主题挖掘方法及装置

    公开(公告)号:CN105243083B

    公开(公告)日:2018-09-07

    申请号:CN201510566787.2

    申请日:2015-09-08

    Inventor: 姜迪 石磊

    Abstract: 本申请提出一种文档主题挖掘方法和装置,其中,该方法包括:根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。实现了基于PLSA算法更加全面精确的挖掘文档主题,提高了文档主题内容的相关性,从而使搜索引擎的结果更接近文档的语义信息。

    提取文档关键句的方法及装置

    公开(公告)号:CN105243053A

    公开(公告)日:2016-01-13

    申请号:CN201510587652.4

    申请日:2015-09-15

    Abstract: 本发明公开了一种提取文档关键句的方法及装置,其中所述方法包括:根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;计算所述句子向量和所述文档向量之间的相关性;选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。本发明实施例能够提取出的精确表达文档信息的关键句。

Patent Agency Ranking