-
公开(公告)号:CN113239686A
公开(公告)日:2021-08-10
申请号:CN202110418764.2
申请日:2021-04-19
Applicant: 国网电力科学研究院有限公司 , 江苏瑞中数据股份有限公司
IPC: G06F40/284 , G06F40/295 , G06F40/242 , G06N3/08
Abstract: 本发明公开了一种基于特征增强的电力实体识别方法,包括对用于进行训练的文本进行分词;通过word2vec对分词后的单词进行训练得到单词向量;通过word2vec基于字符粒度对未分词训练的文本进行训练得到单字向量;通过GRU神经网络对单词中所含单字的单字向量进行训练得到分词结构特征向量;根据分词结构特征向量构建向量词典;从向量词典中找到待识别文本序列的对应向量表达,通过实体识别模型对对应向量表达进行识别得到实体标签序列,本发针对电力专业领域实体嵌套、实体结构复杂、语料规模小等特点,引入了一种融合字符(单字)、分词的多粒度文本特征增强方法,实现电力技术命名实体识别的性能大幅提升。