-
公开(公告)号:CN113191118A
公开(公告)日:2021-07-30
申请号:CN202110501103.6
申请日:2021-05-08
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F40/117 , G06F40/211 , G06F40/242 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及数据处理技术领域,具体地涉及一种基于序列标注的文本关系抽取方法,包括构建与预测数据相近的训练数据集,预设所有可能的双向实体关系以及三种固定的依存关系;将输入语句切分为单词序列,并输入到预训练模型中,得到每个句中单词的表示向量;对单词向量序列使用类似握手的方式组成唯一单词对序列;将得到的向量对序列输入到神经网络分类层中;计算损失并进行反向传播;即判断每个单词对的类别,判断单词对是否有该位置对应的关系;根据该对应关系使用附图中展示的伪代码来解码最终结果,最终得到抽取到的所有三元组。本发明能够同时完成两个任务:实体识别和关系分类。在抽取的准确率和召回率方面均有显著提高,具有较大提升。