一种基于数据增强和两阶段训练的摘要忠实度评价方法

    公开(公告)号:CN119719361A

    公开(公告)日:2025-03-28

    申请号:CN202411823059.0

    申请日:2024-12-12

    Inventor: 黄德根 赵金爽

    Abstract: 一种基于数据增强和两阶段训练的摘要忠实度评价方法,首先,应用三种数据增强方法(实体替换、同主题相似检索、外插掩码填充)从文本摘要数据集中提取训练数据。实体替换(ES)将单句中的实体替换为相同类别、不同名称的其他实体,以此作为负面摘要。同主题相似检索(S3T)根据主题将数据集中的文章进行分组,并在同主题文章中筛选出语义相近的单句,作为不忠实摘要。外插掩码填充(IFEM)在单句中插入额外掩码并进行填充,生成与原文内容相关但不忠实的负面摘要。其次,充分利用文本摘要数据集的信息,分两个阶段对系统进行多任务联合训练。第一阶段使用基于原文提取的训练数据,训练系统掌握对基础事实一致性的判断能力;第二阶段使用基于参考摘要提取的训练数据,提升系统在复杂语境下的忠实度评估能力。本发明通过改进负面摘要构建方式和充分利用数据集信息,显著提升了系统的忠实度评估能力,为自动文本摘要的实际应用提供了强有力的技术支持。

Patent Agency Ranking