一种文本纠错模型的训练方法、应用方法、装置及设备

发明公开

CN115146621A 一种文本纠错模型的训练方法、应用方法、装置及设备审中-实审

请登陆查看更多内容

专利标题： 一种文本纠错模型的训练方法、应用方法、装置及设备
申请号： CN202210499932.X

申请日： 2022-05-09
公开(公告)号： CN115146621A

公开(公告)日： 2022-10-04
发明人: 刘树林
申请人： 腾讯科技(深圳)有限公司
申请人地址： 广东省深圳市南山区高新区科技中一路腾讯大厦35层
专利权人： 腾讯科技(深圳)有限公司
当前专利权人： 腾讯科技(深圳)有限公司
当前专利权人地址： 广东省深圳市南山区高新区科技中一路腾讯大厦35层
代理机构： 深圳市深佳知识产权代理事务所
代理商 王仲凯
主分类号： G06F40/232
IPC分类号： G06F40/232 ; G06N3/04 ; G06N3/08

摘要：

本申请实施例公开了一种文本纠错模型的训练方法、应用方法、装置及设备，相关实施例可应用于人工智能等各种场景，用于提高对错别字的识别精度。本申请实施例方法包括：通过文本纠错模型输出待纠错训练样本中每个文字对应的第一文本概率分布，基于每个文字对应的第一文本概率分布，计算待纠错训练样本对应的纠正损失值，对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换，以构造待纠错训练样本对应的噪声样本，获取噪声样本中每个文字对应的第二文本概率分布，基于第一文本概率分布和第二文本概率分布，计算待纠错训练样本对应的噪声损失值，基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整，得到目标文本纠错模型。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/232	..拼写校正，例如拼写差错程序或加元音符