-
公开(公告)号:CN111062205B
公开(公告)日:2021-10-01
申请号:CN201911292849.X
申请日:2019-12-16
Applicant: 北京大学
IPC: G06F40/253 , G06N3/08
Abstract: 本发明提供一种中文自动语法纠错的动态掩码训练方法,属于自然语言处理领域。本发明引入了多种基于词替换的加噪模式,提出了一种混合加噪模式来更好地利用已有标注数据,提升模型泛化能力和健壮性;且利用动态掩码机制来避免静态掩码机制重复产生样例的缺陷,进一步提升语法纠错效果。在得到经过动态掩码的源端的错误句子后,将其与原本的目标端的正确句子组成新的训练样例,进行字级别的序列到序列模型的训练。本发明通过不同的加噪模式引入多种噪声信息,增加神经网络模型的泛化能力,缓解中文语法纠错领域数据稀缺的问题,提升了中文自动语法纠错模型的训练效果。
-
公开(公告)号:CN111062205A
公开(公告)日:2020-04-24
申请号:CN201911292849.X
申请日:2019-12-16
Applicant: 北京大学
IPC: G06F40/253 , G06N3/08
Abstract: 本发明提供一种中文自动语法纠错的动态掩码训练方法,属于自然语言处理领域。本发明引入了多种基于词替换的加噪模式,提出了一种混合加噪模式来更好地利用已有标注数据,提升模型泛化能力和健壮性;且利用动态掩码机制来避免静态掩码机制重复产生样例的缺陷,进一步提升语法纠错效果。在得到经过动态掩码的源端的错误句子后,将其与原本的目标端的正确句子组成新的训练样例,进行字级别的序列到序列模型的训练。本发明通过不同的加噪模式引入多种噪声信息,增加神经网络模型的泛化能力,缓解中文语法纠错领域数据稀缺的问题,提升了中文自动语法纠错模型的训练效果。
-