-
公开(公告)号:CN102508845B
公开(公告)日:2015-07-22
申请号:CN201110288904.5
申请日:2011-09-13
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30663 , G06F17/30634 , G06F17/30713 , G06F17/30722 , G06F17/30734
Abstract: 本发明涉及对概念分层结构进行导航和搜索的界面。方法包括在计算设备接收概念分层结构。概念分层结构标识与文档语料库相关联的概念。生成基于概念分层结构的界面。界面可操作用于对概念分层结构进行导航、搜索和修改。方法包括将界面发送到显示设备用于显示。
-
公开(公告)号:CN104221017A
公开(公告)日:2014-12-17
申请号:CN201380019331.3
申请日:2013-04-08
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30758 , G06F17/30303 , G06F17/30395 , G06F17/3053 , G06F17/30539 , G06F17/30595 , G06F17/30722 , G06F17/30867
Abstract: 在一个实施例中,数据集被存储在目录中。通过建立不同数据集中的域之间的关系来丰富这些数据集。用户通过提供感兴趣的域的示例来搜索相关的数据集。该系统标识与用户提供的示例相对应的数据集。该系统随后标识这些数据集中直接链接或通过其他域间接链接的连接子集。用户提供已知的关系示例以过滤连接子集并标识与用户的查询最相关的连接子集。所选的连接子集可以被业务智能/分析进一步分析以创建数据透视表或处理该数据。
-
公开(公告)号:CN102591914A
公开(公告)日:2012-07-18
申请号:CN201110415245.7
申请日:2011-12-02
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/3053 , G06F17/2715 , G06F17/2745 , G06F17/30864
Abstract: 本发明涉及用于标识文档内的关键短语的方法、系统,以及计算机程序产品。本发明的实施例包括使用标签索引来确定文档主要与什么相关。一般而言,集成的数据流和提取-变换-加载流水线对数据库表中的文档大的语料库进行爬行、解析和断词。可将文档分成多个元组。可将元组发送至基于启发式的算法,该算法使用统计语言模型和权重+交叉熵阈值函数以将文档概括为其“前N个”统计上最显著的短语。因此,本发明的实施例有效地(例如,线性地)扩展,并可按显著和相关关键短语(标签)表征(潜在大量的)文档。
-
公开(公告)号:CN102236696A
公开(公告)日:2011-11-09
申请号:CN201110111578.0
申请日:2011-04-20
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30663
Abstract: 公开了从非结构化文本提取可伸缩增量语义实体和相关性。用于包含文本的文档的搜索引擎可以使用统计语言模型来处理文本,基于熵对该文本进行分类,并且创建后缀树或每一分类的文本的其他映射。可以从后缀树或映射中用不同单词或文本串之间的关系来构造图。可以使用该图来确定搜索结果,并且在查看搜索结果之前可以对该图进行浏览或导航。由于添加了新文档,可以对它们进行处理并且添加到后缀树,随后可以响应于搜索请求按需创建该图。可以将该图表示为邻接矩阵,并且传递闭包算法可以处理该邻接矩阵作为后台进程。
-
公开(公告)号:CN102591914B
公开(公告)日:2015-02-25
申请号:CN201110415245.7
申请日:2011-12-02
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/3053 , G06F17/2715 , G06F17/2745 , G06F17/30864
Abstract: 本发明涉及用于标识文档内的关键短语的方法、系统,以及计算机程序产品。本发明的实施例包括使用标签索引来确定文档主要与什么相关。一般而言,集成的数据流和提取-变换-加载流水线对数据库表中的文档大的语料库进行爬行、解析和断词。可将文档分成多个元组。可将元组发送至基于启发式的算法,该算法使用统计语言模型和权重+交叉熵阈值函数以将文档概括为其“前N个”统计上最显著的短语。因此,本发明的实施例有效地(例如,线性地)扩展,并可按显著和相关关键短语(标签)表征(潜在大量的)文档。
-
公开(公告)号:CN102508845A
公开(公告)日:2012-06-20
申请号:CN201110288904.5
申请日:2011-09-13
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30663 , G06F17/30634 , G06F17/30713 , G06F17/30722 , G06F17/30734
Abstract: 本发明涉及对概念分层结构进行导航和搜索的界面。方法包括在计算设备接收概念分层结构。概念分层结构标识与文档语料库相关联的概念。生成基于概念分层结构的界面。界面可操作用于对概念分层结构进行导航、搜索和修改。方法包括将界面发送到显示设备用于显示。
-
-
-
-
-