关系型数据库与全文检索相结合的检索方法

    公开(公告)号:CN100481076C

    公开(公告)日:2009-04-22

    申请号:CN200510132443.7

    申请日:2005-12-23

    Abstract: 本发明公开了一种关系型数据库与全文检索相结合的检索方法,为克服现有技术中关系型数据库中SQL检索方式与全文检索方式不能很好的结合、效率低下的问题而发明。包括一个以上的数据库,并对每一个数据库中需要的属性字段创建数据库检索索引库和由全文检索引擎创建全文索引库,检索时将检索条件根据需要分拆为数据库检索和全文检索两部分,分别形成相应的查询语句,数据库检索条件要求符合标准SQL规范,全文检索条件要求符合全文检索语法规则,然后前者提交关系型数据库进行数据库检索,后者提交全文检索引擎进行全文检索,从而实现两检索并行执行,大大提高检索的性能,并且能够提供全文检索引擎特定的检索机制。

    一种基于簇排列的面向主题或查询的多文档摘要方法

    公开(公告)号:CN100418093C

    公开(公告)日:2008-09-10

    申请号:CN200610072587.2

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。

    一种基于文档扩展的单文档摘要方法

    公开(公告)号:CN1916904A

    公开(公告)日:2007-02-21

    申请号:CN200610112788.0

    申请日:2006-09-01

    Abstract: 本发明涉及一种基于文档扩展的单文档摘要方法,属于语言文字处理技术领域。现有的几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。例如,目前的基于图排列的单文档自动摘要方法只利用了单篇文档内句子之间的相似关系选择重要的句子生成摘要。本发明所述的方法充分利用了相似文档之间的信息冗余性来改进现有的单文档自动摘要方法,该方法首先从文档集中找到与当前文档最相似的少数几篇文档,然后基于这些文档对当前文档中的句子进行全局重要性评价,进而从当前文档中挑选真正重要的句子生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果。

    一种基于语音分类识别的新闻视频检索方法

    公开(公告)号:CN1825936A

    公开(公告)日:2006-08-30

    申请号:CN200610007965.9

    申请日:2006-02-24

    Abstract: 本发明属于计算机语音识别及视频检索技术领域,具体涉及一种基于语音分类识别的新闻视频检索方法。现有技术中,在进行视频检索时,一般是从视频中提取出颜色、纹理等底层特征,然后根据这些特征进行视频检索,无法有效实现从文本到新闻视频的检索,应用非常不方便。本发明所述的方法是在新闻视频中自动分割出标准语音的所有语音片断;然后运用语音识别系统,对分割出的标准语音进行识别,由于新闻视频中的标准语音能够反映该视频的主要内容,因此很容易地实现从文本到视频的新闻检索。采用本发明所述的方法,可以实现自动识别新闻视频中的标准语音,有效实现从文本到视频的新闻检索,从而充分发挥音频分析和检索技术在信息检索中的巨大作用。

    一种网络内容引用自动发现的方法

    公开(公告)号:CN1770159A

    公开(公告)日:2006-05-10

    申请号:CN200510109600.2

    申请日:2005-10-28

    Abstract: 本发明涉及一种网络内容引用自动发现的方法,属于智能信息处理技术。现有技术中,由于没有自动发现网络内容引用的方法,使得网络内容同质化问题非常严重,没有授权的内容引用转载随处可见。本发明以网络搜索技术与智能分析技术及自然语言理解技术为基础,提出一种自动发现网络内容引用的方法,该方法将引用分析过程分成了两步,引入了预搜索过程,不但极大地加快了自动发现的过程,而且可利用搜索引擎网站提供的检索服务,免除开销巨大的网页抓取与建立内容索引等工作。本发明方法不仅使得自动发现网站内容引用成为可能,而且使得系统所需硬件条件要求低,速度快,对保护网络内容的知识产权具有重要的实用价值。

    一种自动计算互联网上主题演化趋势的方法及系统

    公开(公告)号:CN101231640B

    公开(公告)日:2010-09-22

    申请号:CN200710062943.7

    申请日:2007-01-22

    Abstract: 本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。

    一种新闻网页正文信息的提取方法

    公开(公告)号:CN1786965B

    公开(公告)日:2010-05-26

    申请号:CN200510132372.0

    申请日:2005-12-21

    Abstract: 本发明涉及一种新闻网页正文信息的提取方法,属于网页信息分析处理技术领域。现有技术中,通常采用包装器来抽取网页中感兴趣的数据,而包装器是根据一定的信息模式识别知识从特定的信息源中按固定规则抽取相关内容,并以特定形式加以表示的,包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。本发明所述的方法以堆栈数据结构,把网页数据的层次结构信息转化为用向量表达,构建和解析Html树,然后将Html树的各层次数据做对比,进行数据过滤,细化、识别,和数据重组,提取所需的数据信息。采用本发明所述的方法,适用于长期从一固定站点抓取由模版生成的新闻网页中的新闻信息,速度快,准确性高。

    一种对文档集进行批量单文档摘要的方法及系统

    公开(公告)号:CN100511214C

    公开(公告)日:2009-07-08

    申请号:CN200610114590.6

    申请日:2006-11-16

    Abstract: 本发明涉及一种对文档集进行批量单文档摘要的方法及系统,属语言文字处理技术领域。现有几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。本发明所述方法能够对给定文档集中的所有文档批量生成单文档摘要。该方法首先对给定的文档集进行文档聚类,生成若干文档类簇,属于同一类簇的文档具有相似的主题。给定每个文档类簇,对于该类簇中的所有句子统一进行全局重要性评价,然后基于类簇中的每篇文档对句子进行文档内差异性惩罚,最后从该文档中挑选真正重要并且新颖的句子为该文档生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果,同时以批量生成的方式提高了摘要效率。

    一种改进的基于文档结构的文档相似性度量方法

    公开(公告)号:CN100412869C

    公开(公告)日:2008-08-20

    申请号:CN200610072588.7

    申请日:2006-04-13

    Abstract: 本发明涉及一种改进的基于文档子主题结构的文档相似性度量方法,属于语言的计算机处理和信息检索技术领域。针对传统相似性度量方法丢失了词语在文档各个部分的分布信息这个缺点以及利用最优匹配的基于文档子主题结构的方法只允许子主题之间一对一匹配的缺点。本发明所述的方法利用文档结构分析方法分别得到所述两个文档A和B的子主题结构,然后通过构建一个带权二部图G并根据求解线性规划的方法求解其货物运输距离EMD(A,B),最后根据1-EMD(A,B)得到文档A和B之间的相似度值。本发明允许文档子主题之间在一定约束条件下进行多对多匹配,从而提高了文档相似性判断的准确度,同时,该方法具有更好的鲁棒性。

Patent Agency Ranking