基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法

    公开(公告)号:CN114373512B

    公开(公告)日:2024-11-22

    申请号:CN202111627067.4

    申请日:2021-12-28

    Abstract: 本发明公开了基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,涉及自然语言处理的技术领域。本发明使用生物医学领域预训练模型BioBERT生成文本文档的高质量上下文表示,从而对单词进行更加近乎实际语义的词向量表示,解决了生物医学文本中单词的一词多义问题;在BioBERT的基础上使用高斯概率分布可以提高目标蛋白质实体及其邻近词的权重,得到目标实体的增强表示,使模型学习到了实例的局部结构。使用文档分类作为辅助任务改善了从模型中获得的文档的表示,并隐含的增加了数据信息。本发明解决了目前蛋白质相互作用关系抽取中存在的输入文本长,目标蛋白质实体在数据集中分布散乱的问题,提高了该任务上性能的精度。

    基于依存句法预训练模型的篇章级关系抽取方法及系统

    公开(公告)号:CN114417824B

    公开(公告)日:2024-09-10

    申请号:CN202210045155.1

    申请日:2022-01-14

    Abstract: 本发明公开了基于依存句法预训练模型的篇章级关系抽取方法及系统,涉及自然语言处理技术领域,分别采用直接转换、双仿射转换和分解线性变换将依存句法信息引入到预训练模型中,分别比较不同引入方式的特点,分析依存句法信息对预训练模型的作用,同时探索图结构对预训练模型的辅助作用;将实体特征表示与实体间的距离特征进行拼接,丰富了实体的信息,有利于后续的篇章级关系抽取任务。本发明解决了目前预训练模型在篇章级关系抽取中处理长距离文本困难以及弱依赖的问题,不仅提高了预训练模型在篇章级关系抽取任务中处理长文本的能力和性能的精度,并且也探索出了图结构本身对预训练模型具有的辅助作用。

    基于依存句法预训练模型的篇章级关系抽取方法及系统

    公开(公告)号:CN114417824A

    公开(公告)日:2022-04-29

    申请号:CN202210045155.1

    申请日:2022-01-14

    Abstract: 本发明公开了基于依存句法预训练模型的篇章级关系抽取方法及系统,涉及自然语言处理技术领域,分别采用直接转换、双仿射转换和分解线性变换将依存句法信息引入到预训练模型中,分别比较不同引入方式的特点,分析依存句法信息对预训练模型的作用,同时探索图结构对预训练模型的辅助作用;将实体特征表示与实体间的距离特征进行拼接,丰富了实体的信息,有利于后续的篇章级关系抽取任务。本发明解决了目前预训练模型在篇章级关系抽取中处理长距离文本困难以及弱依赖的问题,不仅提高了预训练模型在篇章级关系抽取任务中处理长文本的能力和性能的精度,并且也探索出了图结构本身对预训练模型具有的辅助作用。

    基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法

    公开(公告)号:CN114373512A

    公开(公告)日:2022-04-19

    申请号:CN202111627067.4

    申请日:2021-12-28

    Abstract: 本发明公开了基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,涉及自然语言处理的技术领域。本发明使用生物医学领域预训练模型BioBERT生成文本文档的高质量上下文表示,从而对单词进行更加近乎实际语义的词向量表示,解决了生物医学文本中单词的一词多义问题;在BioBERT的基础上使用高斯概率分布可以提高目标蛋白质实体及其邻近词的权重,得到目标实体的增强表示,使模型学习到了实例的局部结构。使用文档分类作为辅助任务改善了从模型中获得的文档的表示,并隐含的增加了数据信息。本发明解决了目前蛋白质相互作用关系抽取中存在的输入文本长,目标蛋白质实体在数据集中分布散乱的问题,提高了该任务上性能的精度。

Patent Agency Ranking