-
公开(公告)号:CN114970503A
公开(公告)日:2022-08-30
申请号:CN202210598799.3
申请日:2022-05-30
Applicant: 哈尔滨工业大学
IPC: G06F40/232 , G06F40/30 , G06K9/62 , G06N3/04
Abstract: 本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法。属于自然语言处理技术领域。本发明的目的是为了改进中文拼写纠正技术的准确性,更好地解决字音或字形混淆导致的拼写错误,节省人工复核的时间。本发明首先从数据库中取出待纠错文本对应的拼音和仓颉码序列,然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识,给出拼写纠正建议。本发明还采用了特定的mask策略和预训练任务,在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。本发明可用于各种文本纠错场景,提高了校验文章的效率。
-
公开(公告)号:CN114970503B
公开(公告)日:2024-10-29
申请号:CN202210598799.3
申请日:2022-05-30
Applicant: 哈尔滨工业大学
IPC: G06F40/232 , G06F40/30 , G06N3/045 , G06N3/0442 , G06N3/09 , G06F18/2415
Abstract: 本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法。属于自然语言处理技术领域。本发明的目的是为了改进中文拼写纠正技术的准确性,更好地解决字音或字形混淆导致的拼写错误,节省人工复核的时间。本发明首先从数据库中取出待纠错文本对应的拼音和仓颉码序列,然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识,给出拼写纠正建议。本发明还采用了特定的mask策略和预训练任务,在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。本发明可用于各种文本纠错场景,提高了校验文章的效率。
-