一种非母语语音识别系统及方法

    公开(公告)号:CN101650943A

    公开(公告)日:2010-02-17

    申请号:CN200810239892.5

    申请日:2008-12-19

    Abstract: 本发明涉及一种基于混合模型状态修正的非母语语音识别系统及方法。该系统包括:非母语语音接口、母语模型模块、非母语模型模块、母语状态解码模块、非母语状态强制对齐模块、母语与非母语状态相似度矩阵计算模块、母语与非母语状态映射表计算模块及非母语状态修正模型解码模块,该系统及方法通过不同模型间的状态映射,利用说话人母语的声学模型在状态级别上对非母语声学模型进行修正,从而得到更为符合非母语发音特点的模型。该系统及方法有如下优点:在不增加任何非母语语音训练数据,仅依靠说话人母语训练数据的前提下,相对未采用该方法修正过的识别系统的识别性能有明显提高;同时系统识别语音的速度并未明显降低,具有很高的实用性。

    一种浅层自然口语理解系统及方法

    公开(公告)号:CN101645064A

    公开(公告)日:2010-02-10

    申请号:CN200810239727.X

    申请日:2008-12-16

    Abstract: 本发明涉及一种浅层自然口语理解系统及方法,该系统包括:预处理模块、词汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及Viterbi搜索模块。该系统及方法首先通过预处理解决部分口语现象,以简化后续处理;接着对语句进行特征提取,包括基本字词特征,上下文字词特征和实体特征;采用最大熵分类器进行识别;对整句进行优化得到最后分类标记序列;最后从分类标记序列中提取出命名实体。本发明的系统及方法能够有效地、鲁棒地解决口语中特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误等问题。

    一种单音旋律曲线的匹配方法

    公开(公告)号:CN101447186A

    公开(公告)日:2009-06-03

    申请号:CN200710178220.3

    申请日:2007-11-28

    Abstract: 本发明提供一种单音旋律曲线的匹配方法,包括:1)将待匹配的两段单音旋律分帧,分别提取每一帧的基频,得到两个基频序列;2)选择划分点k,l,将所述基频序列A1,…,n和B1,…,m分别划分为前、后两个子序列,然后计算折线匹配代价;选择不同的划分点组合,找出使得该折线匹配代价最小的最优划分点组合k、l;3)回到步骤2),进一步找出前子序列和后子序列各自的最优划分点组合,这样不断循环,直到划分得出的子序列长度小于预先设定的门限值。相对于已有的非线性旋律匹配方法,本发明中的方法采用自上而下的递归方式解决旋律匹配问题,能够更好地强调整体旋律线的匹配,具有更好的匹配效果,也更符合人对音乐的感知。同时,本发明的方法具有较低的算法复杂度。

    基于音素混淆的中英文双语语音识别方法

    公开(公告)号:CN101447184A

    公开(公告)日:2009-06-03

    申请号:CN200810110555.6

    申请日:2008-06-03

    Abstract: 本发明涉及一种基于音素混淆的中英文双语语音识别方法,该方法采用两遍音素聚类的方法统一中英文音素集,重新训练得到中英文混合声学模型,并修正相应的双语发音字典,解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;并且在毫无中文口音的英文数据,仅依靠标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高;同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能,具有很高的实用性。

    一种快速可在线应用的声道长度归整方法

    公开(公告)号:CN101447182A

    公开(公告)日:2009-06-03

    申请号:CN200810097981.0

    申请日:2008-05-21

    Abstract: 本发明涉及一种快速可在线应用的声道长度归整方法,包括如下步骤:1)在训练阶段训练一个与声道长度无关的归整后的声学模型;2)根据不同的归整因子对训练数据分类,训练多类GMM;3)测试时分段在多类GMM打分,快速计算声道长度归整因子;4)根据识别系统的实时性需求选择不同的段数,更新声道长度归整因子;5)用声道长度归整后的声学模型对归整后的声学特征解码。本发明的方法可以根据识别系统对实时性的要求,对测试语音可以选择分段的长度,从而让声道长度归整技术应用于在线的系统中。分段是为了消除判断不准确的静音的影响,又不至于把连续语音按帧拆的太分散而影响声学动态特征差分的值,同时还可以根据段的情况加不同的权重。

    一种多通道远场语音识别方法

    公开(公告)号:CN110867178B

    公开(公告)日:2022-01-21

    申请号:CN201810986855.4

    申请日:2018-08-28

    Abstract: 本发明涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;步骤3)对专家模型进行训练,获得训练后的专家模型;同时采用知识升华策略,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别。

    一种基于自适应学习率的端到端的语音识别方法

    公开(公告)号:CN107293291B

    公开(公告)日:2021-03-16

    申请号:CN201610192763.X

    申请日:2016-03-30

    Abstract: 本发明提供一种基于自适应学习率的端到端的语音识别方法,包括:步骤(1)、采用双向递归神经网络作为声学模型,分别计算所述前向递归神经网络隐层和所述反向递归神经网络隐层再采用长短时记忆单元分别替代和得到神经网络的最终输出,即y;步骤(2)、将上述步骤(1)中的声学模型建模单元作为音素,采用CTC准则,引入了blank符号辅助对齐,构建和计算目标函数;对所述目标函数关于神经网络输出进行求偏导计算,再通过使用误差反向传播算法计算所述步骤(1)中权值矩阵中的参数集合w的梯度g;步骤(3)、基于上述步骤(2)所提供的一阶梯度信息,即梯度g,再结合ADADELTA自适应学习率的方法,对所述参数集合w进行更新。

    一种基于窗口输入的双向回馈神经网络的语音识别方法

    公开(公告)号:CN111091817A

    公开(公告)日:2020-05-01

    申请号:CN201811242398.4

    申请日:2018-10-24

    Abstract: 本发明公开了一种基于窗口输入的双向回馈神经网络的语音识别方法,所述方法包括:步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM-E;步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM-E,通过BLSTM-E的前向计算,计算出每个语音帧的后验概率;步骤3)将步骤2)中每个语音帧的后验概率输入解码器,解码器在语言模型的限制下,利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。本发明提出的基于窗口输入的双向回馈神经网络BLSTM-E的语音识别方法,能够在每一帧的语音判决过程中将更广的时间域内的信息利用起来,取得了相比于传统BLSTM语音识别方法更精确的识别结果。

Patent Agency Ranking