一种中文自动语法纠错中的动态掩码训练方法

    公开(公告)号:CN111062205B

    公开(公告)日:2021-10-01

    申请号:CN201911292849.X

    申请日:2019-12-16

    Applicant: 北京大学

    Inventor: 王厚峰 赵泽伟

    Abstract: 本发明提供一种中文自动语法纠错的动态掩码训练方法,属于自然语言处理领域。本发明引入了多种基于词替换的加噪模式,提出了一种混合加噪模式来更好地利用已有标注数据,提升模型泛化能力和健壮性;且利用动态掩码机制来避免静态掩码机制重复产生样例的缺陷,进一步提升语法纠错效果。在得到经过动态掩码的源端的错误句子后,将其与原本的目标端的正确句子组成新的训练样例,进行字级别的序列到序列模型的训练。本发明通过不同的加噪模式引入多种噪声信息,增加神经网络模型的泛化能力,缓解中文语法纠错领域数据稀缺的问题,提升了中文自动语法纠错模型的训练效果。

    一种中文自动语法纠错中的动态掩码训练方法

    公开(公告)号:CN111062205A

    公开(公告)日:2020-04-24

    申请号:CN201911292849.X

    申请日:2019-12-16

    Applicant: 北京大学

    Inventor: 王厚峰 赵泽伟

    Abstract: 本发明提供一种中文自动语法纠错的动态掩码训练方法,属于自然语言处理领域。本发明引入了多种基于词替换的加噪模式,提出了一种混合加噪模式来更好地利用已有标注数据,提升模型泛化能力和健壮性;且利用动态掩码机制来避免静态掩码机制重复产生样例的缺陷,进一步提升语法纠错效果。在得到经过动态掩码的源端的错误句子后,将其与原本的目标端的正确句子组成新的训练样例,进行字级别的序列到序列模型的训练。本发明通过不同的加噪模式引入多种噪声信息,增加神经网络模型的泛化能力,缓解中文语法纠错领域数据稀缺的问题,提升了中文自动语法纠错模型的训练效果。

Patent Agency Ranking