一种基于LSTM的中文文本语法纠错模型方法

    公开(公告)号:CN109948152B

    公开(公告)日:2020-07-17

    申请号:CN201910168386.X

    申请日:2019-03-06

    Abstract: 本发明公开了一种基于LSTM的中文文本语法纠错模型的方法,首先收集大量的中文文本语料用以计算5‑gram语言模型,保存的语言模型将会用作数据处理过程和模型输出的结果选择,然后收集语法纠错平行语料数据,语法纠错平行语料数据用作训练LSTM神经网络模型,实现模型对错误句子到正确句子的序列翻译过程;其次用保存好的5‑gram语言模型对平行语料数据进行预处理,修改掉明显的错误,最后构建LSTM神经网络并用预处理后的数据进行训练,训练结束保存网络参数,并用已训练好的网络,输出语法正确的文本序列。本发明数据容易获取,过程简单有效,LSTM神经网络自动抽取抽象特征,完成语法纠错任务,算法效率和准确度都相对较高,应用于中文学习过程和语音识别后端处理。

    一种基于神经网络的中文标点符号添加方法

    公开(公告)号:CN109918666B

    公开(公告)日:2024-03-15

    申请号:CN201910168357.3

    申请日:2019-03-06

    Abstract: 本发明提出一种基于神经网络的中文标点符号添加方法,包括以下步骤:构造标点符号添加的训练数据集、基于神经网络构建中文标点符号添加方法、利用标点符号训练数据集来训练神经网络、利用训练好的神经网络对中文标点符号进行恢复、勘误;本发明从大数据出发,构建深度神经网络模型来对中文标点符号恢复、勘误,突破了传统的大量人工检测的局限,神经网络在大量训练集一经训练完成,就可以对各种题材的文本进行标点符号的恢复勘误,经大量文本训练过后的神经网络,标点符号预测的准确率在95%以上,精确率在85%以上,召回率在85%以上,f1值在85%以上,符合工业要求水平,本发明可应用于对语音合成文字后的文本进行标点符号勘误。

    一种基于LSTM的中文文本语法纠错模型方法

    公开(公告)号:CN109948152A

    公开(公告)日:2019-06-28

    申请号:CN201910168386.X

    申请日:2019-03-06

    Abstract: 本发明公开了一种基于LSTM的中文文本语法纠错模型的方法,首先收集大量的中文文本语料用以计算5-gram语言模型,保存的语言模型将会用作数据处理过程和模型输出的结果选择,然后收集语法纠错平行语料数据,语法纠错平行语料数据用作训练LSTM神经网络模型,实现模型对错误句子到正确句子的序列翻译过程;其次用保存好的5-gram语言模型对平行语料数据进行预处理,修改掉明显的错误,最后构建LSTM神经网络并用预处理后的数据进行训练,训练结束保存网络参数,并用已训练好的网络,输出语法正确的文本序列。本发明数据容易获取,过程简单有效,LSTM神经网络自动抽取抽象特征,完成语法纠错任务,算法效率和准确度都相对较高,应用于中文学习过程和语音识别后端处理。

    拼音作为特征的中文语音识别后的文本神经网络纠错模型

    公开(公告)号:CN110765772A

    公开(公告)日:2020-02-07

    申请号:CN201910968667.3

    申请日:2019-10-12

    Abstract: 本发明公开一种拼音作为特征的中文语音识别后的文本神经网络纠错模型,包括:1)构建中文语音识别后的文本纠错平行语料库;2)构建拼音编码,将训练集的句子对转化为拼音,通过词嵌入方法编码为拼音编码;3)构建神经网络输入特征,模型输入特征包括三部分:词向量编码,位置编码和拼音编码;4)构建深度卷积的编码器解码器神经网络。由于中文语音识别后的文本错误主要是中文拼音出错,并且一般是局部错误,使用拼音编码作为网络输入的一部分,又使用深度卷积编码器解码器模型,深度卷积编码器对序列局部信息进行有效提取,在解码过程中,使用了拼音特征,又在局部序列进行纠错,从而极大提高了中文语音识别准确度。

    一种基于神经网络的中文标点符号添加方法

    公开(公告)号:CN109918666A

    公开(公告)日:2019-06-21

    申请号:CN201910168357.3

    申请日:2019-03-06

    Abstract: 本发明提出一种基于神经网络的中文标点符号添加方法,包括以下步骤:构造标点符号添加的训练数据集、基于神经网络构建中文标点符号添加方法、利用标点符号训练数据集来训练神经网络、利用训练好的神经网络对中文标点符号进行恢复、勘误;本发明从大数据出发,构建深度神经网络模型来对中文标点符号恢复、勘误,突破了传统的大量人工检测的局限,神经网络在大量训练集一经训练完成,就可以对各种题材的文本进行标点符号的恢复勘误,经大量文本训练过后的神经网络,标点符号预测的准确率在95%以上,精确率在85%以上,召回率在85%以上,f1值在85%以上,符合工业要求水平,本发明可应用于对语音合成文字后的文本进行标点符号勘误。

Patent Agency Ranking