-
公开(公告)号:CN114373512A
公开(公告)日:2022-04-19
申请号:CN202111627067.4
申请日:2021-12-28
Applicant: 大连海事大学
IPC: G16B50/30 , G06F16/35 , G06F16/36 , G06F40/247 , G06F40/289 , G06F40/295
Abstract: 本发明公开了基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,涉及自然语言处理的技术领域。本发明使用生物医学领域预训练模型BioBERT生成文本文档的高质量上下文表示,从而对单词进行更加近乎实际语义的词向量表示,解决了生物医学文本中单词的一词多义问题;在BioBERT的基础上使用高斯概率分布可以提高目标蛋白质实体及其邻近词的权重,得到目标实体的增强表示,使模型学习到了实例的局部结构。使用文档分类作为辅助任务改善了从模型中获得的文档的表示,并隐含的增加了数据信息。本发明解决了目前蛋白质相互作用关系抽取中存在的输入文本长,目标蛋白质实体在数据集中分布散乱的问题,提高了该任务上性能的精度。
-
公开(公告)号:CN114373512B
公开(公告)日:2024-11-22
申请号:CN202111627067.4
申请日:2021-12-28
Applicant: 大连海事大学
IPC: G16B50/30 , G06F16/35 , G06F16/36 , G06F40/247 , G06F40/289 , G06F40/295
Abstract: 本发明公开了基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,涉及自然语言处理的技术领域。本发明使用生物医学领域预训练模型BioBERT生成文本文档的高质量上下文表示,从而对单词进行更加近乎实际语义的词向量表示,解决了生物医学文本中单词的一词多义问题;在BioBERT的基础上使用高斯概率分布可以提高目标蛋白质实体及其邻近词的权重,得到目标实体的增强表示,使模型学习到了实例的局部结构。使用文档分类作为辅助任务改善了从模型中获得的文档的表示,并隐含的增加了数据信息。本发明解决了目前蛋白质相互作用关系抽取中存在的输入文本长,目标蛋白质实体在数据集中分布散乱的问题,提高了该任务上性能的精度。
-