拼音作为特征的中文语音识别后的文本神经网络纠错模型

    公开(公告)号:CN110765772A

    公开(公告)日:2020-02-07

    申请号:CN201910968667.3

    申请日:2019-10-12

    Abstract: 本发明公开一种拼音作为特征的中文语音识别后的文本神经网络纠错模型,包括:1)构建中文语音识别后的文本纠错平行语料库;2)构建拼音编码,将训练集的句子对转化为拼音,通过词嵌入方法编码为拼音编码;3)构建神经网络输入特征,模型输入特征包括三部分:词向量编码,位置编码和拼音编码;4)构建深度卷积的编码器解码器神经网络。由于中文语音识别后的文本错误主要是中文拼音出错,并且一般是局部错误,使用拼音编码作为网络输入的一部分,又使用深度卷积编码器解码器模型,深度卷积编码器对序列局部信息进行有效提取,在解码过程中,使用了拼音特征,又在局部序列进行纠错,从而极大提高了中文语音识别准确度。

Patent Agency Ranking