-
公开(公告)号:CN110188353A
公开(公告)日:2019-08-30
申请号:CN201910452219.8
申请日:2019-05-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提出一种文本纠错方法及装置,其中方法包括:将待纠错的文本对应的词向量数组输入预设的编码模块,获取第一隐状态向量数组并输入至解码模块,针对每个解码位置,根据该解码位置对应的第二隐状态向量、注意力向量和第一隐状态向量数组确定解码向量;根据解码位置的解码向量、全局性词表、以及解码位置的字词对应的受限词表,确定解码位置的解码结果,进而确定文本对应的纠错后文本,该方法中确定解码向量时,采用了第一隐状态向量数组,从而考虑到了文本的字词顺序,确保了纠错结果的准确度;另外,受限词表的采用,限制了解空间的大小,降低了纠错模型的复杂度,提升了模型收敛速度。
-
公开(公告)号:CN110046350A
公开(公告)日:2019-07-23
申请号:CN201910293504.X
申请日:2019-04-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/27
Abstract: 本申请提出一种文法错误识别方法、装置和计算机设备,其中,方法包括:通过获取文本序列和候选字集合,根据文本序列和候选字集合生成第一词向量数组表示、第二词向量数组表示和第三词向量数组表示,根据文本序列和候选字集合生成N-gram统计特征和PT特征,根据第一词向量数组表示和第二词向量数组表示和N-gram统计特征通过基于候选排序的语言模型生成候选字集合的语言模型特征,根据第一词向量数组表示、第三词向量数组表示、N-gram统计特征和PT特征通过文法特征提取模块生成文法错误特征信息,根据候选字集合的语言模型特征和文法错误特征信息通过排序校对模型生成错误输出几率打分。由此,能够准确识别出文本序列中的错误序列,提高了文法错误识别的准确率。
-
公开(公告)号:CN110046350B
公开(公告)日:2023-04-07
申请号:CN201910293504.X
申请日:2019-04-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/232 , G06F40/253 , G06F40/211
Abstract: 本申请提出一种文法错误识别方法、装置和计算机设备,其中,方法包括:通过获取文本序列和候选字集合,根据文本序列和候选字集合生成第一词向量数组表示、第二词向量数组表示和第三词向量数组表示,根据文本序列和候选字集合生成N‑gram统计特征和PT特征,根据第一词向量数组表示和第二词向量数组表示和N‑gram统计特征通过基于候选排序的语言模型生成候选字集合的语言模型特征,根据第一词向量数组表示、第三词向量数组表示、N‑gram统计特征和PT特征通过文法特征提取模块生成文法错误特征信息,根据候选字集合的语言模型特征和文法错误特征信息通过排序校对模型生成错误输出几率打分。由此,能够准确识别出文本序列中的错误序列,提高了文法错误识别的准确率。
-
公开(公告)号:CN110188353B
公开(公告)日:2021-02-05
申请号:CN201910452219.8
申请日:2019-05-28
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/232 , G06F40/289 , G06F40/126 , G06N3/04
Abstract: 本申请提出一种文本纠错方法及装置,其中方法包括:将待纠错的文本对应的词向量数组输入预设的编码模块,获取第一隐状态向量数组并输入至解码模块,针对每个解码位置,根据该解码位置对应的第二隐状态向量、注意力向量和第一隐状态向量数组确定解码向量;根据解码位置的解码向量、全局性词表、以及解码位置的字词对应的受限词表,确定解码位置的解码结果,进而确定文本对应的纠错后文本,该方法中确定解码向量时,采用了第一隐状态向量数组,从而考虑到了文本的字词顺序,确保了纠错结果的准确度;另外,受限词表的采用,限制了解空间的大小,降低了纠错模型的复杂度,提升了模型收敛速度。
-
-
-