-
公开(公告)号:CN112329446B
公开(公告)日:2023-05-23
申请号:CN201910646536.3
申请日:2019-07-17
Applicant: 北方工业大学
IPC: G06F40/232
Abstract: 本发明公开了一种中文拼写的检查方法,包括以下步骤:建立中文拼写检查模型;将中文拼写错误检查设置为序列标注任务;添加动态词语和拼音对模型进行训练;向训练后的模型中分别输入字符、词语和拼音;通过序列标注任务对模型中输入的字符、词语和拼音进行匹配。本发明能够有效融合字、词、拼音三者特征,能够不用分词且实现端到端的查错解决方案,避免繁琐的流程,并且融合字、词、拼音三种特征,无需进行分词,比传统查错方法更具有普遍性,更具有领域适应性。
-
公开(公告)号:CN112328737B
公开(公告)日:2023-05-05
申请号:CN201910647316.2
申请日:2019-07-17
Applicant: 北方工业大学
IPC: G06F16/33 , G06F40/232 , G06F40/289 , G06F40/205 , G06F18/20
Abstract: 本发明公开了一种拼写数据的生成方法,包括以下步骤:基于输入法构建拼音语料库、语音语料库以及手写语料库;通过输入法输入不同形式的错误句子或词组;通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索;当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。本发明用于中文拼写检查的标记语料库的获取变得更加简单可行,克服了以往通过人工收集费事费力且难以大量获取的弊端,使用不同的方法为不同的输入法构建对应的标记语料库,可以获得更加接近真实情况的语料数据。
-
公开(公告)号:CN112329446A
公开(公告)日:2021-02-05
申请号:CN201910646536.3
申请日:2019-07-17
Applicant: 北方工业大学
IPC: G06F40/232
Abstract: 本发明公开了一种中文拼写的检查方法,包括以下步骤:建立中文拼写检查模型;将中文拼写错误检查设置为序列标注任务;添加动态词语和拼音对模型进行训练;向训练后的模型中分别输入字符、词语和拼音;通过序列标注任务对模型中输入的字符、词语和拼音进行匹配。本发明能够有效融合字、词、拼音三者特征,能够不用分词且实现端到端的查错解决方案,避免繁琐的流程,并且融合字、词、拼音三种特征,无需进行分词,比传统查错方法更具有普遍性,更具有领域适应性。
-
公开(公告)号:CN112328737A
公开(公告)日:2021-02-05
申请号:CN201910647316.2
申请日:2019-07-17
Applicant: 北方工业大学
IPC: G06F16/33 , G06F40/232 , G06F40/289 , G06F40/205 , G06K9/62
Abstract: 本发明公开了一种拼写数据的生成方法,包括以下步骤:基于输入法构建拼音语料库、语音语料库以及手写语料库;通过输入法输入不同形式的错误句子或词组;通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索;当检索出对应的错误时,通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。本发明用于中文拼写检查的标记语料库的获取变得更加简单可行,克服了以往通过人工收集费事费力且难以大量获取的弊端,使用不同的方法为不同的输入法构建对应的标记语料库,可以获得更加接近真实情况的语料数据。
-
-
-