一种基于多任务学习与知识蒸馏的文档级关系抽取方法

    公开(公告)号:CN119761495A

    公开(公告)日:2025-04-04

    申请号:CN202411967292.6

    申请日:2024-12-30

    Abstract: 本发明公开了一种基于多任务学习与知识蒸馏的文档级关系抽取方法,该方法包括:获取待抽取文档文本,将其输入训练后的文档级关系抽取模型,输出相应的文档级文本关系;该文档级关系抽取模型包括特征提取模块、教师模型和学生模型,该模型的训练过程包括:利用人工标注的文档数据通过多任务学习预训练得到教师模型;利用预训练的教师模型对未标注证据信息的文档数据进行证据补全;利用证据补全后的文档数据训练学生模型;所述训练后的文档级关系抽取模型包括特征提取模块和训练后的学生模型。本发明能够准确提取文档中的上下文语义信息,通过知识蒸馏有效缓解数据稀疏性问题,实现文档级关系的高效抽取,显著提升模型在复杂语境下的性能。

Patent Agency Ranking