一种用于提取案例信息的多元新词的方法及系统
摘要:
本发明公开了一种用于提取案例信息的多元新词的方法及系统,属于电力设备技术领域。本发明方法,包括:获取文本信息和表格数据,根据文本信息和表格数据的表单结构解析并识别出表单结构中数据的属性名称文本,将表单结构中数据的属性名称文本加入新词生成案例文本;对案例文本进行分词处理,对进行分词后的案例文本构建前缀树,将常用词和分词后的案例文本加入树节点;确定相邻树节点构成多元新词,并对多元新词进行提取。本发明根据互信息和邻接熵相结合获取多元新词相对稳定,程序简单,易于实现。
0/0