-
公开(公告)号:CN115310430A
公开(公告)日:2022-11-08
申请号:CN202210974549.5
申请日:2022-08-15
Applicant: 哈尔滨工程大学
IPC: G06F40/226 , G06F40/242 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 一种结合五笔与拼音特征的中文拼写纠错方法,本发明为解决中文文本自动校对技术粒度过于细化,导致下游任务完成较困难,完成时间长的问题,先获取中文字及五笔全码;根据发音易混方式对每个中文字的拼音进行映射;将每个中文字的五笔全码和映射后的拼音进行合并作为每个中文字的标识;获取文本进行预处理,利用Bi‑GRU模型提取文本特征,结合每个标识得到中文字拼音与五笔全码融合的表达方式,并将所述表达方式作为发音与形状的嵌入;计算中文字的字符嵌入和位置嵌入;根据发音与形状的嵌入、字符嵌入和位置嵌入利用BERT‑WWM模型得到纠错目标。属于文本分析技术领域。