-
公开(公告)号:CN114757191B
公开(公告)日:2024-09-17
申请号:CN202210319638.6
申请日:2022-03-29
申请人: 国网江苏省电力有限公司营销服务中心 , 国网江苏省电力有限公司
IPC分类号: G06F40/295 , G06F18/10 , G06F18/213 , G06F18/25 , G06N3/0455 , G06N3/0442 , G06N3/08
摘要: 本发明提出一种基于深度学习的电力舆情领域命名实体识别方法与系统,整理电力舆情的文本数据,标记出所述文本数据中的实体词;将数据预处理标注为位置索引标注序列;对预处理后的数据进行特征提取;根据数据标注结果抽取新的电力舆情文本数据中的实体词。本发明的位置索引标注方式很好地解决了实体之间交叉包含的问题;结合文本中每个字的五笔顺序与偏旁部首的特征,通过BiLSTM模型进行特征的提取,与BERT预训练模型得到的BERT特征相融合,增强了特征向量中语义的表征,可以更好、更准确的抽取文本包含的实体;通过使用CRF层对得到的位置索引序列标签进行约束,大大减少不规则标签出现的概率,从而可以获得较好的实体标签序列。
-
公开(公告)号:CN114757191A9
公开(公告)日:2022-11-01
申请号:CN202210319638.6
申请日:2022-03-29
申请人: 国网江苏省电力有限公司营销服务中心 , 国网江苏省电力有限公司
IPC分类号: G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明提出一种基于深度学习的电力舆情领域命名实体识别方法与系统,整理电力舆情的文本数据,标记出所述文本数据中的实体词;将数据预处理标注为位置索引标注序列;对预处理后的数据进行特征提取;根据数据标注结果抽取新的电力舆情文本数据中的实体词。本发明的位置索引标注方式很好地解决了实体之间交叉包含的问题;结合文本中每个字的五笔顺序与偏旁部首的特征,通过BiLSTM模型进行特征的提取,与BERT预训练模型得到的BERT特征相融合,增强了特征向量中语义的表征,可以更好、更准确的抽取文本包含的实体;通过使用CRF层对得到的位置索引序列标签进行约束,大大减少不规则标签出现的概率,从而可以获得较好的实体标签序列。
-
公开(公告)号:CN114757191A
公开(公告)日:2022-07-15
申请号:CN202210319638.6
申请日:2022-03-29
申请人: 国网江苏省电力有限公司营销服务中心 , 国网江苏省电力有限公司
IPC分类号: G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明提出一种基于深度学习的电力舆情领域命名实体识别方法与系统,整理电力舆情的文本数据,标记出所述文本数据中的实体词;将数据预处理标注为位置索引标注序列;对预处理后的数据进行特征提取;根据数据标注结果抽取新的电力舆情文本数据中的实体词。本发明的位置索引标注方式很好地解决了实体之间交叉包含的问题;结合文本中每个字的五笔顺序与偏旁部首的特征,通过BiLSTM模型进行特征的提取,与BERT预训练模型得到的BERT特征相融合,增强了特征向量中语义的表征,可以更好、更准确的抽取文本包含的实体;通过使用CRF层对得到的位置索引序列标签进行约束,大大减少不规则标签出现的概率,从而可以获得较好的实体标签序列。
-
-