-
公开(公告)号:CN101739426A
公开(公告)日:2010-06-16
申请号:CN200810226101.5
申请日:2008-11-13
申请人: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
摘要: 本发明公开了一种多文档摘要的生成方法及装置,用以解决现有技术中生成的多文档摘要的可读性差的问题。该方法从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。如本发明提出的方案,充分考虑了摘要句间的连续性和与主题内容的相关性,从而可以有效的提高生成的多文档摘要的可读性。
-
公开(公告)号:CN101727462A
公开(公告)日:2010-06-09
申请号:CN200810224334.1
申请日:2008-10-17
申请人: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
摘要: 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。
-
公开(公告)号:CN101727462B
公开(公告)日:2012-04-25
申请号:CN200810224334.1
申请日:2008-10-17
申请人: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
摘要: 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。
-
公开(公告)号:CN101729520A
公开(公告)日:2010-06-09
申请号:CN200810224969.1
申请日:2008-10-28
申请人: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
摘要: 本发明公开了一种敏感信息的检测方法及装置,以避免现有的信息检测技术由于不能识别关键词的变异形式而造成检测效果不佳的问题。该方法获得关键词库,所述关键词库中包含对关键词进行变异处理得到的关键词变异形式信息;在检查出待检测信息中包含所述关键词库中的关键词变异形式信息时,确定待检测信息包含敏感信息。
-
公开(公告)号:CN101231640B
公开(公告)日:2010-09-22
申请号:CN200710062943.7
申请日:2007-01-22
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC分类号: G06F17/30
摘要: 本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。
-
公开(公告)号:CN101231641B
公开(公告)日:2010-05-19
申请号:CN200710062944.1
申请日:2007-01-22
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC分类号: G06F17/30
摘要: 本发明涉及一种自动分析互联网上热点主题传播过程的方法及系统,属于智能信息处理技术。由于互联网上文本信息的不断增长,自动从海量文本中检测与分析热点或敏感主题是文本挖掘和信息检索领域的一个重要课题,具有重大的实用价值。本发明利用自然语言处理方法,自动分析给定热点或敏感主题中的文档信息传播过程:对主题中的文档按照时间排序之后,从第一篇文档开始对当前文档利用模式匹配方法搜索其转载出处,如果未发现其转载出处,则进一步利用文档相似度比较方法判断其转载出处,同时获取对应的源文档。最后将转载关系以图形化的方式直观地呈现给用户。本方法可广泛应用于互联网智能信息处理、舆情分析与监控等。
-
公开(公告)号:CN101231641A
公开(公告)日:2008-07-30
申请号:CN200710062944.1
申请日:2007-01-22
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC分类号: G06F17/30
摘要: 本发明涉及一种自动分析互联网上热点主题传播过程的方法及系统,属于智能信息处理技术。由于互联网上文本信息的不断增长,自动从海量文本中检测与分析热点或敏感主题是文本挖掘和信息检索领域的一个重要课题,具有重大的实用价值。本发明利用自然语言处理方法,自动分析给定热点或敏感主题中的文档信息传播过程:对主题中的文档按照时间排序之后,从第一篇文档开始对当前文档利用模式匹配方法搜索其转载出处,如果未发现其转载出处,则进一步利用文档相似度比较方法判断其转载出处,同时获取对应的源文档。最后将转载关系以图形化的方式直观地呈现给用户。本方法可广泛应用于互联网智能信息处理、舆情分析与监控等。
-
公开(公告)号:CN101231640A
公开(公告)日:2008-07-30
申请号:CN200710062943.7
申请日:2007-01-22
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
IPC分类号: G06F17/30
摘要: 本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。
-
-
-
-
-
-
-