发明公开
CN102360383A 一种面向文本的领域术语与术语关系抽取方法
失效 - 权利终止
- 专利标题: 一种面向文本的领域术语与术语关系抽取方法
- 专利标题(英): Method for extracting text-oriented field term and term relationship
-
申请号: CN201110312280.6申请日: 2011-10-15
-
公开(公告)号: CN102360383A公开(公告)日: 2012-02-22
- 发明人: 郑庆华 , 刘均 , 罗俊英 , 程晓程
- 申请人: 西安交通大学
- 申请人地址: 陕西省西安市咸宁西路28号
- 专利权人: 西安交通大学
- 当前专利权人: 西安交通大学
- 当前专利权人地址: 陕西省西安市咸宁西路28号
- 代理机构: 西安通大专利代理有限责任公司
- 代理商 朱海临
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开了一种面向文本的领域术语与术语关系抽取方法,其特征在于,包括下述步骤:首先对原始语料进行预处理,获得候选词集,包括分句、分词及词性标注,干扰词过滤;其次,从原始语料和互联网中提取出术语特征,并结合双模型结构算法,从候选词中分离出术语;然后,采用倒排索引的方法构建术语词典,并利用最长匹配算法,标注待识别文本中的术语;最后,根据多维度节点标记规则,通过条件随机场模型进行多层次标记序列标注,得到待识别文本中术语间的关系。
公开/授权文献
- CN102360383B 一种面向文本的领域术语与术语关系抽取方法 公开/授权日:2013-07-31