一种在线端对端语音转写方法及系统

    公开(公告)号:CN111128191B

    公开(公告)日:2023-03-28

    申请号:CN201911415035.0

    申请日:2019-12-31

    Abstract: 本发明提供一种在线端对端语音转写方法及系统,在一个实施例中,对所述音频文件提取声学特征;对所述声学特征进行非线性变换和降采样并输出第一特征序列;将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;将分数最高的汉字序列作为最终转写结果。通过改进编码器结构,让其处理分块的音频;通过改进解码器的结构,让其在截断音频的基础上输出汉字。使得在输入音频的同时转写文本。

    联结主义时间分类和截断式注意力联合在线语音识别技术

    公开(公告)号:CN111179918B

    公开(公告)日:2022-10-14

    申请号:CN202010106791.1

    申请日:2020-02-20

    Abstract: 本发明实施例提供了一种联结主义时间分类和截断式注意力联合在线语音识别技术。构建了基于编码器、解码器、截断式注意力和联结主义时间分类器的语音识别神经网络模型,采用交叉熵准则和联结主义时间分类准则训练该神经网络模型;将语音流输入解码器,将存留的汉字序列输入编码器,利用截断式注意力机制截取有效的语音片段;根据截取的语音片段,对每条存留的汉字序列预测多个汉字,并于之构成一个新的汉字序列,并评分;联结主义时间分类器将解码拓展的多组汉字序列和已接收的语音对齐,并评分;对两种评分取平均,对各汉字序列进行剪枝;当满足终止条件时输出识别结果。该方法很大程度提升在线语音识别的性能。

    一种在线端对端语音转写方法及系统

    公开(公告)号:CN111128191A

    公开(公告)日:2020-05-08

    申请号:CN201911415035.0

    申请日:2019-12-31

    Abstract: 本发明提供一种在线端对端语音转写方法及系统,在一个实施例中,对所述音频文件提取声学特征;对所述声学特征进行非线性变换和降采样并输出第一特征序列;将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;将分数最高的汉字序列作为最终转写结果。通过改进编码器结构,让其处理分块的音频;通过改进解码器的结构,让其在截断音频的基础上输出汉字。使得在输入音频的同时转写文本。

    联结主义时间分类和截断式注意力联合在线语音识别技术

    公开(公告)号:CN111179918A

    公开(公告)日:2020-05-19

    申请号:CN202010106791.1

    申请日:2020-02-20

    Abstract: 本发明实施例提供了一种联结主义时间分类和截断式注意力联合在线语音识别技术。构建了基于编码器、解码器、截断式注意力和联结主义时间分类器的语音识别神经网络模型,采用交叉熵准则和联结主义时间分类准则训练该神经网络模型;将语音流输入解码器,将存留的汉字序列输入编码器,利用截断式注意力机制截取有效的语音片段;根据截取的语音片段,对每条存留的汉字序列预测多个汉字,并于之构成一个新的汉字序列,并评分;联结主义时间分类器将解码拓展的多组汉字序列和已接收的语音对齐,并评分;对两种评分取平均,对各汉字序列进行剪枝;当满足终止条件时输出识别结果。该方法很大程度提升在线语音识别的性能。

Patent Agency Ranking