中文比较句分类器模型生成、中文比较句识别方法及装置

    公开(公告)号:CN101727462A

    公开(公告)日:2010-06-09

    申请号:CN200810224334.1

    申请日:2008-10-17

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。

    中文比较句分类器模型生成、中文比较句识别方法及装置

    公开(公告)号:CN101727462B

    公开(公告)日:2012-04-25

    申请号:CN200810224334.1

    申请日:2008-10-17

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。

    一种自动计算互联网上主题演化趋势的方法及系统

    公开(公告)号:CN101231640B

    公开(公告)日:2010-09-22

    申请号:CN200710062943.7

    申请日:2007-01-22

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。

    一种自动分析互联网上热点主题传播过程的方法及系统

    公开(公告)号:CN101231641B

    公开(公告)日:2010-05-19

    申请号:CN200710062944.1

    申请日:2007-01-22

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种自动分析互联网上热点主题传播过程的方法及系统,属于智能信息处理技术。由于互联网上文本信息的不断增长,自动从海量文本中检测与分析热点或敏感主题是文本挖掘和信息检索领域的一个重要课题,具有重大的实用价值。本发明利用自然语言处理方法,自动分析给定热点或敏感主题中的文档信息传播过程:对主题中的文档按照时间排序之后,从第一篇文档开始对当前文档利用模式匹配方法搜索其转载出处,如果未发现其转载出处,则进一步利用文档相似度比较方法判断其转载出处,同时获取对应的源文档。最后将转载关系以图形化的方式直观地呈现给用户。本方法可广泛应用于互联网智能信息处理、舆情分析与监控等。

    一种自动分析互联网上热点主题传播过程的方法及系统

    公开(公告)号:CN101231641A

    公开(公告)日:2008-07-30

    申请号:CN200710062944.1

    申请日:2007-01-22

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种自动分析互联网上热点主题传播过程的方法及系统,属于智能信息处理技术。由于互联网上文本信息的不断增长,自动从海量文本中检测与分析热点或敏感主题是文本挖掘和信息检索领域的一个重要课题,具有重大的实用价值。本发明利用自然语言处理方法,自动分析给定热点或敏感主题中的文档信息传播过程:对主题中的文档按照时间排序之后,从第一篇文档开始对当前文档利用模式匹配方法搜索其转载出处,如果未发现其转载出处,则进一步利用文档相似度比较方法判断其转载出处,同时获取对应的源文档。最后将转载关系以图形化的方式直观地呈现给用户。本方法可广泛应用于互联网智能信息处理、舆情分析与监控等。

    一种自动计算互联网上主题演化趋势的方法及系统

    公开(公告)号:CN101231640A

    公开(公告)日:2008-07-30

    申请号:CN200710062943.7

    申请日:2007-01-22

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。