-
公开(公告)号:CN118095282A
公开(公告)日:2024-05-28
申请号:CN202410172725.2
申请日:2024-02-07
Applicant: 北京工业大学
IPC: G06F40/295 , G06F40/284 , G06N3/0442 , G06N3/045 , G06N3/09
Abstract: 一种基于分层样本进行命名实体识别的方法,属于自然语言处理领域。该方法包括四个模块:数据预处理模块、粗粒度实体筛选模块、样本分层处理模块以及细粒度实体分类模块。首先,通过数据预处理模块对原始数据进行处理及标注。然后,利用粗粒度实体筛选模块训练BiLSTM和CRF组合模型获得实体类别预测置信度,指导样本粗粒度分类。之后,利用样本分层处理模块,结合置信度,进一步对初筛后的粗粒度样本划分为多层次类型:易样本、难样本和误判样本的处理。最后,细粒度实体分类模块将分类处理后的样本输入CRF网络进行实体标签的细粒度分类。此方法利用了外部知识且有针对性的使用词汇增强显著提高了命名实体识别的准确性和鲁棒性。
-
公开(公告)号:CN118114668A
公开(公告)日:2024-05-31
申请号:CN202410172746.4
申请日:2024-02-07
Applicant: 北京工业大学
IPC: G06F40/295 , G06N3/045 , G06N3/084 , G06N3/09
Abstract: 一种基于多粒度和图注意力网络的文档级实体关系抽取的方法,涉及自然语言处理技术的实体关系抽取领域。首先获取文档文本,得到文档中标注好的实体及其相关信息,并构建一个情感参考词表;然后基于文档的层次结构,利用多粒度思想,将文档分为段落、句子、实体等不同的层次,从而构建层次图;基于层次图和图注意力网络,分别进行同粒度节点之间以及不同粒度节点之间的信息交互和更新,然后使用多头注意力机制整合所有粒度节点信息;最后依据整合后的信息进行该文档的实体关系抽取。本发明充分利用文档的层次结构信息,使用图注意力网络在层次图中传递和聚合信息,更全面的捕捉并融合文本中信息,进而有效提高实体关系抽取的准确率。
-