标识文档内的关键短语

    公开(公告)号:CN102591914A

    公开(公告)日:2012-07-18

    申请号:CN201110415245.7

    申请日:2011-12-02

    Applicant: 微软公司

    CPC classification number: G06F17/3053 G06F17/2715 G06F17/2745 G06F17/30864

    Abstract: 本发明涉及用于标识文档内的关键短语的方法、系统,以及计算机程序产品。本发明的实施例包括使用标签索引来确定文档主要与什么相关。一般而言,集成的数据流和提取-变换-加载流水线对数据库表中的文档大的语料库进行爬行、解析和断词。可将文档分成多个元组。可将元组发送至基于启发式的算法,该算法使用统计语言模型和权重+交叉熵阈值函数以将文档概括为其“前N个”统计上最显著的短语。因此,本发明的实施例有效地(例如,线性地)扩展,并可按显著和相关关键短语(标签)表征(潜在大量的)文档。

    从非结构化文本提取可伸缩增量语义实体和相关性

    公开(公告)号:CN102236696A

    公开(公告)日:2011-11-09

    申请号:CN201110111578.0

    申请日:2011-04-20

    Applicant: 微软公司

    CPC classification number: G06F17/30663

    Abstract: 公开了从非结构化文本提取可伸缩增量语义实体和相关性。用于包含文本的文档的搜索引擎可以使用统计语言模型来处理文本,基于熵对该文本进行分类,并且创建后缀树或每一分类的文本的其他映射。可以从后缀树或映射中用不同单词或文本串之间的关系来构造图。可以使用该图来确定搜索结果,并且在查看搜索结果之前可以对该图进行浏览或导航。由于添加了新文档,可以对它们进行处理并且添加到后缀树,随后可以响应于搜索请求按需创建该图。可以将该图表示为邻接矩阵,并且传递闭包算法可以处理该邻接矩阵作为后台进程。

    标识文档内的关键短语

    公开(公告)号:CN102591914B

    公开(公告)日:2015-02-25

    申请号:CN201110415245.7

    申请日:2011-12-02

    Applicant: 微软公司

    CPC classification number: G06F17/3053 G06F17/2715 G06F17/2745 G06F17/30864

    Abstract: 本发明涉及用于标识文档内的关键短语的方法、系统,以及计算机程序产品。本发明的实施例包括使用标签索引来确定文档主要与什么相关。一般而言,集成的数据流和提取-变换-加载流水线对数据库表中的文档大的语料库进行爬行、解析和断词。可将文档分成多个元组。可将元组发送至基于启发式的算法,该算法使用统计语言模型和权重+交叉熵阈值函数以将文档概括为其“前N个”统计上最显著的短语。因此,本发明的实施例有效地(例如,线性地)扩展,并可按显著和相关关键短语(标签)表征(潜在大量的)文档。

Patent Agency Ranking