-
公开(公告)号:CN1180377C
公开(公告)日:2004-12-15
申请号:CN02129045.8
申请日:2002-08-29
Applicant: 北京北大方正技术研究院有限公司 , 北京大学计算机科学技术研究所
IPC: G06N7/00
Abstract: 本发明属于智能信息处理技术,具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷,提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘,由于充分的利用了半结构化文档中的结构信息与链接信息,挖掘效果大大改进。本方法可广泛地应用于智能信息处理。
-
公开(公告)号:CN1399228A
公开(公告)日:2003-02-26
申请号:CN02129045.8
申请日:2002-08-29
Applicant: 北京北大方正技术研究院有限公司 , 北京大学计算机科学技术研究所
Abstract: 本发明属于智能信息处理技术,具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷,提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘,由于充分的利用了半结构化文档中的结构信息与链接信息,挖掘效果大大改进。本方法可广泛地应用于智能信息处理。
-
公开(公告)号:CN100498783C
公开(公告)日:2009-06-10
申请号:CN200610112798.4
申请日:2006-09-01
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种支持全文检索系统同时检索数值类型数据域的方法。该方法通过将数值类型的数据值转换成具有固定长度的有序的位串作为索引项实现数值类型数据的快速索引与检索,实现了全文检索系统对数值类型数据域的支持,解决了全文检索系统对结构化数据支持的问题。从而达到了使全文检索系统可同时对结构化数据和非结构化数据进行处理的目的。随着信息量爆炸性增长,信息检索的需要越来越深入,本发明的方法具有广泛的应用前景。
-
公开(公告)号:CN101136014A
公开(公告)日:2008-03-05
申请号:CN200610112798.4
申请日:2006-09-01
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种支持全文检索系统同时检索数值类型数据域的方法。该方法通过将数值类型的数据值转换成具有固定长度的有序的位串作为索引项实现数值类型数据的快速索引与检索,实现了全文检索系统对数值类型数据域的支持,解决了全文检索系统对结构化数据支持的问题。从而达到了使全文检索系统可同时对结构化数据和非结构化数据进行处理的目的。随着信息量爆炸性增长,信息检索的需要越来越深入,本发明的方法具有广泛的应用前景。
-
公开(公告)号:CN1987853A
公开(公告)日:2007-06-27
申请号:CN200510132443.7
申请日:2005-12-23
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/30
Abstract: 本发明公开了一种关系型数据库与全文检索相结合的检索方法,为克服现有技术中关系型数据库中SQL检索方式与全文检索方式不能很好的结合、效率低下的问题而发明。包括一个以上的数据库,并对每一个数据库中需要的属性字段创建数据库检索索引库和由全文检索引擎创建全文索引库,检索时将检索条件根据需要分拆为数据库检索和全文检索两部分,分别形成相应的查询语句,数据库检索条件要求符合标准SQL规范,全文检索条件要求符合全文检索语法规则,然后前者提交关系型数据库进行数据库检索,后者提交全文检索引擎进行全文检索,从而实现两检索并行执行,大大提高检索的性能,并且能够提供全文检索引擎特定的检索机制。
-
公开(公告)号:CN1828609A
公开(公告)日:2006-09-06
申请号:CN200610072587.2
申请日:2006-04-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。
-
公开(公告)号:CN100593783C
公开(公告)日:2010-03-10
申请号:CN200710099802.2
申请日:2007-05-30
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
Abstract: 本发明公开了一种词汇语义褒贬获得方法、系统及装置,用以提高确定词汇语义褒贬的准确率。在本发明中,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。
-
公开(公告)号:CN100498782C
公开(公告)日:2009-06-10
申请号:CN200610112797.X
申请日:2006-09-01
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种全文检索系统支持数据域快速更新的方法。本发明在倒排索引的技术基础上,对需要进行快速更新的数据域采用非倒排索引方式。通过将动态索引结构与倒排索引结构相结合,在全文检索系统中实现对数据域的快速更新,并通过线性索引,辅助从文档标识快速找到数据域的原内容并进行删除。该发明方法在略微降低建索引和检索的效率情况下,对部分数据域的更新具有很好的效率,达到了使全文检索系统可支持数据域快速更新的目的。随着信息技术的广泛应用,信息量爆炸性增长,信息检索的应用越来越深入,本发明的方法具有广泛的应用前景。
-
公开(公告)号:CN100435145C
公开(公告)日:2008-11-19
申请号:CN200610072586.8
申请日:2006-04-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种基于句子关系图的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法中,没有采用有效的措施保持摘要中句子的新颖性,也没有区分句子之间不同类型的关系,只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构,利用句子关系的扩散特性计算句子之间的真实语义关系,同时,区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑句子的信息丰富程度,又考虑其新颖程度,在实际评测中取得了很好的效果。
-
公开(公告)号:CN101136016A
公开(公告)日:2008-03-05
申请号:CN200610112800.8
申请日:2006-09-01
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种新的全文检索系统的索引在线更新方法。该方法通过辅助索引实现全文检索系统的索引在线更新。将新增文档加入到辅助索引中,将被删除文档采用布尔向量标识,从而实现索引的实时更新并保证索引的一致性,并通过与主索引的合并避免系统长期更新操作导致的系统性能下降。该发明方法实现了在不影响全文检索系统的检索功能的情况下,保证索引更新的实时性和一致性。
-
-
-
-
-
-
-
-
-