发明公开
- 专利标题: 一种用于提取案例信息的多元新词的方法及系统
-
申请号: CN201911412439.4申请日: 2019-12-31
-
公开(公告)号: CN111191437A公开(公告)日: 2020-05-22
- 发明人: 张书琦 , 王健一 , 程涣超 , 汪可 , 吴超 , 孙建涛 , 汤浩 , 刘雪丽 , 遇心如 , 赵志刚 , 徐征宇 , 赵晓宇 , 赵晓林 , 杨帆 , 王琳 , 梁宁川 , 吕晓露
- 申请人: 中国电力科学研究院有限公司 , 国家电网有限公司
- 申请人地址: 北京市海淀区清河小营东路15号
- 专利权人: 中国电力科学研究院有限公司,国家电网有限公司
- 当前专利权人: 中国电力科学研究院有限公司,国家电网有限公司
- 当前专利权人地址: 北京市海淀区清河小营东路15号
- 代理机构: 北京工信联合知识产权代理有限公司
- 代理商 姜丽辉
- 主分类号: G06F40/205
- IPC分类号: G06F40/205 ; G06F40/216 ; G06F40/289 ; G06F40/30 ; G06F40/174 ; G06F40/14
摘要:
本发明公开了一种用于提取案例信息的多元新词的方法及系统,属于电力设备技术领域。本发明方法,包括:获取文本信息和表格数据,根据文本信息和表格数据的表单结构解析并识别出表单结构中数据的属性名称文本,将表单结构中数据的属性名称文本加入新词生成案例文本;对案例文本进行分词处理,对进行分词后的案例文本构建前缀树,将常用词和分词后的案例文本加入树节点;确定相邻树节点构成多元新词,并对多元新词进行提取。本发明根据互信息和邻接熵相结合获取多元新词相对稳定,程序简单,易于实现。