- 专利标题: 中文比较句分类器模型生成、中文比较句识别方法及装置
- 专利标题(英): Method and device for generating Chinese comparative sentence sorter model and identifying Chinese comparative sentences
-
申请号: CN200810224334.1申请日: 2008-10-17
-
公开(公告)号: CN101727462B公开(公告)日: 2012-04-25
- 发明人: 黄小江 , 万小军 , 杨建武 , 肖建国
- 申请人: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
- 申请人地址: 北京市海淀区颐和园路5号
- 专利权人: 北京大学,北大方正集团有限公司,北京方正电子政务信息科技有限公司
- 当前专利权人: 北京大学,新方正控股发展有限责任公司北京方正电子政务信息科技有限公司
- 当前专利权人地址: 北京市海淀区颐和园路5号
- 代理机构: 北京同达信恒知识产权代理有限公司
- 代理商 郭润湘
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; G06F17/27
摘要:
本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。
公开/授权文献
- CN101727462A 中文比较句分类器模型生成、中文比较句识别方法及装置 公开/授权日:2010-06-09