-
公开(公告)号:CN1282113C
公开(公告)日:2006-10-25
申请号:CN200410004752.1
申请日:2004-03-03
Applicant: 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种基于快速排序算法的快速分页排序方法。现有的排序方法在对所有数据完全排序之前难以知道指定范围内包括哪些数据及它们之间的顺序,所以现有技术是对所有数据先进行完全排序,然后输出指定范围的数据子集,这必然存在大量不必要的计算开销,影响了计算机系统的响应速度。本发明所述的方法主要是采用类似快速排序算法(Quick Sort)分治的策略,利用缓存机制,不断将不属于指定范围内的元素排除,并逐渐排序定位指定范围内的数据,从而解决了快速分页排序的问题。采用本发明所述的方法,能有效地解决海量数据环境下的分页排序问题,大大减少了不必要的计算开销,避免了重复计算,提高了计算机系统的响应速度。
-
公开(公告)号:CN1790321A
公开(公告)日:2006-06-21
申请号:CN200510117001.5
申请日:2005-10-28
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种用于海量文本快速相似搜索的方法,属于智能信息处理技术。当数据集的维数较高(超过20)或数据量很大(超过10万)时,现有技术方法的性能迅速降低,难以满足海量文本的相似搜索。本发明提出一种海量文本快速相似搜索方法。它提出两步搜索策略,首先通过快速预选进行文本的预搜索,从而快速排除绝大多数的不相关文档,然后在剩余的小结果集上进一步判断相似性。该方法具有很高的效率,可适用于对海量文本的搜索。本发明的方法在海量信息智能检索、文本消重、内容引用发现等应用领域中具有广泛的应用前景。
-
公开(公告)号:CN101295292B
公开(公告)日:2016-07-20
申请号:CN200710098635.X
申请日:2007-04-23
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/27
Abstract: 本发明公开了一种基于最大熵模型建模和命名实体识别的方法,该方法包括:输入标注命名实体的训练文本;对所述训练文本中的字符进行角色标注,得到训练文本的字符角色标注;根据字符角色标注,建立所述字符的特征项;将所述字符的特征项输入到最大熵的建模工具中,得到基于字符角色标注的数据模型。该方法不需分词,因此解决了进行命名实体识别时,分词错误和它导致的信息丢失而影响识别效果的问题。
-
公开(公告)号:CN101231640B
公开(公告)日:2010-09-22
申请号:CN200710062943.7
申请日:2007-01-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。
-
公开(公告)号:CN100511214C
公开(公告)日:2009-07-08
申请号:CN200610114590.6
申请日:2006-11-16
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种对文档集进行批量单文档摘要的方法及系统,属语言文字处理技术领域。现有几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。本发明所述方法能够对给定文档集中的所有文档批量生成单文档摘要。该方法首先对给定的文档集进行文档聚类,生成若干文档类簇,属于同一类簇的文档具有相似的主题。给定每个文档类簇,对于该类簇中的所有句子统一进行全局重要性评价,然后基于类簇中的每篇文档对句子进行文档内差异性惩罚,最后从该文档中挑选真正重要并且新颖的句子为该文档生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果,同时以批量生成的方式提高了摘要效率。
-
公开(公告)号:CN101295292A
公开(公告)日:2008-10-29
申请号:CN200710098635.X
申请日:2007-04-23
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/27
Abstract: 本发明公开了一种基于最大熵模型建模和命名实体识别的方法,该方法包括:输入标注命名实体的训练文本;对所述训练文本中的字符进行角色标注,得到训练文本的字符角色标注;根据字符角色标注,建立所述字符的特征项;将所述字符的特征项输入到最大熵的建模工具中,得到基于字符角色标注的数据模型。该方法不需分词,因此解决了进行命名实体识别时,分词错误和它导致的信息丢失而影响识别效果的问题。
-
公开(公告)号:CN100412869C
公开(公告)日:2008-08-20
申请号:CN200610072588.7
申请日:2006-04-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种改进的基于文档子主题结构的文档相似性度量方法,属于语言的计算机处理和信息检索技术领域。针对传统相似性度量方法丢失了词语在文档各个部分的分布信息这个缺点以及利用最优匹配的基于文档子主题结构的方法只允许子主题之间一对一匹配的缺点。本发明所述的方法利用文档结构分析方法分别得到所述两个文档A和B的子主题结构,然后通过构建一个带权二部图G并根据求解线性规划的方法求解其货物运输距离EMD(A,B),最后根据1-EMD(A,B)得到文档A和B之间的相似度值。本发明允许文档子主题之间在一定约束条件下进行多对多匹配,从而提高了文档相似性判断的准确度,同时,该方法具有更好的鲁棒性。
-
公开(公告)号:CN100412866C
公开(公告)日:2008-08-20
申请号:CN200510109600.2
申请日:2005-10-28
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种网络内容引用自动发现的方法,属于智能信息处理技术。现有技术中,由于没有自动发现网络内容引用的方法,使得网络内容同质化问题非常严重,没有授权的内容引用转载随处可见。本发明以网络搜索技术与智能分析技术及自然语言理解技术为基础,提出一种自动发现网络内容引用的方法,该方法将引用分析过程分成了两步,引入了预搜索过程,不但极大地加快了自动发现的过程,而且可利用搜索引擎网站提供的检索服务,免除开销巨大的网页抓取与建立内容索引等工作。本发明方法不仅使得自动发现网站内容引用成为可能,而且使得系统所需硬件条件要求低,速度快,对保护网络内容的知识产权具有重要的实用价值。
-
公开(公告)号:CN101187919A
公开(公告)日:2008-05-28
申请号:CN200610114590.6
申请日:2006-11-16
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种对文档集进行批量单文档摘要的方法及系统,属语言文字处理技术领域。现有几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。本发明所述方法能够对给定文档集中的所有文档批量生成单文档摘要。该方法首先对给定的文档集进行文档聚类,生成若干文档类簇,属于同一类簇的文档具有相似的主题。给定每个文档类簇,对于该类簇中的所有句子统一进行全局重要性评价,然后基于类簇中的每篇文档对句子进行文档内差异性惩罚,最后从该文档中挑选真正重要并且新颖的句子为该文档生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果,同时以批量生成的方式提高了摘要效率。
-
公开(公告)号:CN1959671A
公开(公告)日:2007-05-09
申请号:CN200510117412.4
申请日:2005-10-31
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
Abstract: 本发明公开了一种基于文档结构的文档相似性度量方法,涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息,本发明提出的方法包括以下步骤:(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法找出每个文档的子主题序列;(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值;(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值,建立一个带权二部图G={X,Y,E};(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。本发明提出的方法,提高了文档相似性判断的准确度。
-
-
-
-
-
-
-
-
-