-
公开(公告)号:CN100412866C
公开(公告)日:2008-08-20
申请号:CN200510109600.2
申请日:2005-10-28
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种网络内容引用自动发现的方法,属于智能信息处理技术。现有技术中,由于没有自动发现网络内容引用的方法,使得网络内容同质化问题非常严重,没有授权的内容引用转载随处可见。本发明以网络搜索技术与智能分析技术及自然语言理解技术为基础,提出一种自动发现网络内容引用的方法,该方法将引用分析过程分成了两步,引入了预搜索过程,不但极大地加快了自动发现的过程,而且可利用搜索引擎网站提供的检索服务,免除开销巨大的网页抓取与建立内容索引等工作。本发明方法不仅使得自动发现网站内容引用成为可能,而且使得系统所需硬件条件要求低,速度快,对保护网络内容的知识产权具有重要的实用价值。
-
公开(公告)号:CN101187919A
公开(公告)日:2008-05-28
申请号:CN200610114590.6
申请日:2006-11-16
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种对文档集进行批量单文档摘要的方法及系统,属语言文字处理技术领域。现有几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。本发明所述方法能够对给定文档集中的所有文档批量生成单文档摘要。该方法首先对给定的文档集进行文档聚类,生成若干文档类簇,属于同一类簇的文档具有相似的主题。给定每个文档类簇,对于该类簇中的所有句子统一进行全局重要性评价,然后基于类簇中的每篇文档对句子进行文档内差异性惩罚,最后从该文档中挑选真正重要并且新颖的句子为该文档生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果,同时以批量生成的方式提高了摘要效率。
-
公开(公告)号:CN1996843A
公开(公告)日:2007-07-11
申请号:CN200510132589.1
申请日:2005-12-26
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
Abstract: 本发明公开了轻量级分布式文件存储系统及文件上传的方法。针对现有分布式存储系统在企业组织应用的局限性,本发明提出的系统中目录服务器、存储服务器采用树型分层网络结构,即:目录服务器通过网络连接一台或多台存储服务器,所述的每台存储服务器通过网络连接有一台或多台存储服务器,客户机通过网络连接其中一台存储服务器。本发明轻量级分布式文件存储中系统文件上传的方法能够将用户上传的文件按照预先设定的策略将文件存储到指定的服务器上,或者在策略不生效时优先存储于用户所在区域的存储服务器中。本发明提出的轻量级分布式文件存储系统和文件上传的方法能够加快用户对于文件的访问速度,降低对网络带宽的要求,提高系统可用性。
-
公开(公告)号:CN1959671A
公开(公告)日:2007-05-09
申请号:CN200510117412.4
申请日:2005-10-31
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
Abstract: 本发明公开了一种基于文档结构的文档相似性度量方法,涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息,本发明提出的方法包括以下步骤:(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法找出每个文档的子主题序列;(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值;(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值,建立一个带权二部图G={X,Y,E};(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。本发明提出的方法,提高了文档相似性判断的准确度。
-
公开(公告)号:CN1828608A
公开(公告)日:2006-09-06
申请号:CN200610072586.8
申请日:2006-04-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种基于句子关系图的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法中,没有采用有效的措施保持摘要中句子的新颖性,也没有区分句子之间不同类型的关系,只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构,利用句子关系的扩散特性计算句子之间的真实语义关系,同时,区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑句子的信息丰富程度,又考虑其新颖程度,在实际评测中取得了很好的效果。
-
公开(公告)号:CN1687932A
公开(公告)日:2005-10-26
申请号:CN200510073464.6
申请日:2005-05-30
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种用于基于内容的海量图片快速检索的索引构建方法,属于智能信息处理技术。现有技术中,对海量图片进行基于内容的检索时,系统响应的时间长,检索效率低,且系统的健壮性不够强。本发明针对基于内容的海量图片快速检索的效率与系统健壮性问题,在平衡多路查找树的索引结构基础上,引入聚类调整机制并提出最小完备子树更新策略和非线性特征量化算法。采用本发明所述的方法将大大提高索引结构的性能,降低检索响应时间,增强系统健壮性,对基于内容的海量图片快速检索系统具有重要的应用价值。
-
公开(公告)号:CN1581162A
公开(公告)日:2005-02-16
申请号:CN200410004752.1
申请日:2004-03-03
Applicant: 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种基于快速排序算法的快速分页排序方法。现有的排序方法在对所有数据完全排序之前难以知道指定范围内包括哪些数据及它们之间的顺序,所以现有技术是对所有数据先进行完全排序,然后输出指定范围的数据子集,这必然存在大量不必要的计算开销,影响了计算机系统的响应速度。本发明所述的方法主要是采用类似快速排序算法(Quick Sort)分治的策略,利用缓存机制,不断将不属于指定范围内的元素排除,并逐渐排序定位指定范围内的数据,从而解决了快速分页排序的问题。采用本发明所述的方法,能有效地解决海量数据环境下的分页排序问题,大大减少了不必要的计算开销,避免了重复计算,提高了计算机系统的响应速度。
-
公开(公告)号:CN101231641B
公开(公告)日:2010-05-19
申请号:CN200710062944.1
申请日:2007-01-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种自动分析互联网上热点主题传播过程的方法及系统,属于智能信息处理技术。由于互联网上文本信息的不断增长,自动从海量文本中检测与分析热点或敏感主题是文本挖掘和信息检索领域的一个重要课题,具有重大的实用价值。本发明利用自然语言处理方法,自动分析给定热点或敏感主题中的文档信息传播过程:对主题中的文档按照时间排序之后,从第一篇文档开始对当前文档利用模式匹配方法搜索其转载出处,如果未发现其转载出处,则进一步利用文档相似度比较方法判断其转载出处,同时获取对应的源文档。最后将转载关系以图形化的方式直观地呈现给用户。本方法可广泛应用于互联网智能信息处理、舆情分析与监控等。
-
公开(公告)号:CN100543735C
公开(公告)日:2009-09-23
申请号:CN200510117412.4
申请日:2005-10-31
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
Abstract: 本发明公开了一种基于文档结构的文档相似性度量方法,涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息,本发明提出的方法包括以下步骤:(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法找出每个文档的子主题序列;(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值;(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值,建立一个带权二部图G={X,Y,E};(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。本发明提出的方法,提高了文档相似性判断的准确度。
-
公开(公告)号:CN100461177C
公开(公告)日:2009-02-11
申请号:CN200610007219.X
申请日:2006-02-14
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/30
Abstract: 本发明涉及一种自动检测新闻事件的方法,属于智能信息处理技术。现有技术中,事件检测技术仅仅考虑在固定的小数据集合上的错检率和漏检率,常出现新闻事件被误分为多个小事件的情况,并且事件检测的精确度不高,常出现检测到的事件内容过于宽泛的情况。本发明所述的方法针对持续新闻流事件检测的实际应用,通过引入事件排序,事件合并和调整,新闻报道淘汰,以及新闻事件描述等步骤,提出了一个实用的新闻事件检测方法。采用本发明所述的方法,能够明显提高新闻事件的检测效果,大大增强其实用性。本方法可广泛地应用于智能信息处理。
-
-
-
-
-
-
-
-
-