-
公开(公告)号:CN110472243A
公开(公告)日:2019-11-19
申请号:CN201910728950.9
申请日:2019-08-08
Applicant: 河南大学
Abstract: 本发明涉及一种中文拼写检查方法。包括如下步骤:构建分词模型,对待检测文本进行分词,得到分词序列;辨认分词序列中的可疑字,并对可疑字进行标记;建立混淆集;利用混淆集构建图模型框架生成纠正候选;计算得出最优候选结果。本发明构建了优质的混淆字集,对分词系统做进一步改进,提高分词的准确率,进而更准确地查找错误位置和错误字。
-
公开(公告)号:CN109960815A
公开(公告)日:2019-07-02
申请号:CN201910235726.6
申请日:2019-03-27
Applicant: 河南大学
IPC: G06F17/28 , G06F16/36 , G06F16/951 , G06F16/953 , G06F16/9535
Abstract: 本发明公开的神经机器翻译NMT模型的创建方法及系统,利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库,利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库,利用通用语料库及专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型,实现了专业领域文本的精确翻译,提高了翻译质量、满足了人们对专业领域文本的翻译需求。
-
公开(公告)号:CN110472243B
公开(公告)日:2023-04-07
申请号:CN201910728950.9
申请日:2019-08-08
Applicant: 河南大学
IPC: G06F40/232 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明涉及一种中文拼写检查方法。包括如下步骤:构建分词模型,对待检测文本进行分词,得到分词序列;辨认分词序列中的可疑字,并对可疑字进行标记;建立混淆集;利用混淆集构建图模型框架生成纠正候选;计算得出最优候选结果。本发明构建了优质的混淆字集,对分词系统做进一步改进,提高分词的准确率,进而更准确地查找错误位置和错误字。
-
公开(公告)号:CN109960815B
公开(公告)日:2022-12-09
申请号:CN201910235726.6
申请日:2019-03-27
Applicant: 河南大学
IPC: G06F40/49 , G06F16/36 , G06F16/951 , G06F16/953 , G06F16/9535
Abstract: 本发明公开的神经机器翻译NMT模型的创建方法及系统,利用爬虫技术,从网络资源中获取一定数量的通用中英文对照语句,生成通用语料库,利用爬虫技术,从多套中英对照信息学科类电子书籍中获取一定数量的学科类中英文对照文本并将中英文本序列化,并对长度不一的学科类中英文对照语句依次进行调节,对调节后的序列进行翻译,将得到的翻译结果与对应的中文或英文做相似度匹配,将相似度大于设定阈值的句子设为专业语料库,生成专业语料库,利用通用语料库及专业语料库对序列到序列Seq2Seq模型进行训练,建立NMT模型,实现了专业领域文本的精确翻译,提高了翻译质量、满足了人们对专业领域文本的翻译需求。
-
-
-