用于语音识别的声学模型的建模方法、建模系统

    公开(公告)号:CN103117060A

    公开(公告)日:2013-05-22

    申请号:CN201310020010.7

    申请日:2013-01-18

    Abstract: 本发明涉及一种用于语音识别的声学模型的建模方法及语音识别系统。所述方法包括:训练一个初始模型,建模单元为经音素决策树聚类后的三音子状态,所述模型还给出状态转移概率;基于初始模型对训练数据语音特征的三音子状态进行强制对齐,获得其帧级别的状态信息;对深层神经网络进行预训练以得到各隐含层初始权重;基于所获得的帧级状态信息采用误差反向传播算法对已初始化的网络进行训练,更新权重。本发明采用上下文相关三音子状态做为建模单元,基于深层神经网络建模,使用受限波尔兹曼算法初始化所述网络各隐含层的权重,所述权重在后续还可以借助反向误差传播算法被更新,能够有效地缓解所述网络预训练时容易陷入局部极值的风险,并进一步提高声学模型的建模精度。

    基于音频频谱特征分析的演唱音色明亮度客观评测方法

    公开(公告)号:CN101650941A

    公开(公告)日:2010-02-17

    申请号:CN200810224790.6

    申请日:2008-12-26

    Abstract: 本发明提供一种基于音频频谱特征分析的演唱音色明亮度的客观评测方法,包括如下步骤:1)选取需要度量音色明亮度的演唱片段音频信号;2)对所选取的演唱片段音频信号进行“演唱/间隙”判断;3)对步骤2)得到的演唱片段,计算得到三种频谱特征测度:2K-3KHz能量和、频谱能量总和以及频率加权的谱能量和;4)根据步骤3)得到的频谱特征,计算得到最终的客观度量参数指标:平均2K-3KHz能量比、平均谱重心,利用求出的参数指标对演唱音色的明亮度进行评测。本发明的评测方法,通过对演唱片段的频谱特征分析,利用计算机算法给出可以量化的客观评测参数指标,不受其他人为因素影响,并且具有稳定性、客观性以及便利性等优点。

    一种双向语音识别处理系统及方法

    公开(公告)号:CN101645270A

    公开(公告)日:2010-02-10

    申请号:CN200810239818.3

    申请日:2008-12-12

    Abstract: 本发明涉及一种双向语音识别处理系统及方法,该系统包括:特征提取器、前向语音识别器、后向语音识别器、识别结果反向器及识别结果融合器。该系统及方法,其框架是基于同一知识源的双向语音识别解码完成,在前后双向的语音识别过程中分别得到相应的语音请求识别文本,将不同解码方向的语音请求识别结果融合处理得到语音搜索系统前端的文本请求。本发明的双向语音识别解码系统及方法,在已有的有限的知识源下,通过对双向解码结果的融合,得到更为精确的识别文本;与以往的正向解码方法相比,该方法在有效提高语音识别率的同时,也使语音搜索系统的搜索结果更为准确有效。

    语音识别系统
    14.
    发明授权

    公开(公告)号:CN1259648C

    公开(公告)日:2006-06-14

    申请号:CN200410070140.2

    申请日:2002-11-15

    Abstract: 本发明公开一种语音识别系统,包括:模数变换单元,将输入语音的模拟信号变换为数字信号;特征提取单元,对该数字信号进行分帧处理,提取每一帧语音的特征参数,得到其特征矢量序列;特征码本,由一定数量的码字组成;量化编码单元,根据特征码本将输入语音的特征矢量序列转换为特征码字序列;概率表,存储了特征码本中每个码字对应高斯码本中每个码字的概率值;以及解码运算单元,对该特征码字序列进行解码运算得到识别结果,运算中对该特征码字序列中的各个码字,从概率表中直接查找与其具有最大匹配概率的高斯[0]码字。本发明的语音识别系统,可在保证语音系统识别性能的前提下,提高系统的识别速度。

    一种对话交互前端的回声消除和语音检测方法

    公开(公告)号:CN1248477C

    公开(公告)日:2006-03-29

    申请号:CN02148685.9

    申请日:2002-11-15

    Abstract: 本发明涉及一种对话交互前端的回声消除和语音检测方法,包括下述步骤:利用含有录音和放音通道的电话卡作为通信机对话交互前端的声音接口卡,及利用电话卡的两个通道进行回声消除步骤得到干净的语音残差数据;然后将语音残差数据进行语音信号自适应检测步骤,判断语音残差数据的类型;及当语音残差数据判断为语音时,则停止进行回声消除步骤并关闭放音通道;本发明利用普通电话卡的录音和放音通道,结合语音增强、语音识别和信号处理手段,实现回声的实时消除及语音的实时检测,以实现对话交互功能。

    语音识别置信度评价方法和系统及应用该方法的听写装置

    公开(公告)号:CN1223985C

    公开(公告)日:2005-10-19

    申请号:CN02148686.7

    申请日:2002-11-15

    Abstract: 本发明公开一种语音识别置信度的评价方法及其系统,其评价方法中利用目标单元的隐马尔可夫模型对所述语音段作强制对齐时,生成所述目标单元的状态音素序列及各状态音素对应语音段的起始边界,基于状态音素关于对应语音段中各语音帧的后验概率的计算得到识别结果目标单元的声学置信度量,同时公开了一种并行计算方法和相应的存储结构,本发明的置信度计算是基于更基本的声学结构来进行的,因此可以使置信度评价的结果更为准确有效,更由于采用了并行计算方法及相应的利于并行计算的存储结构,运算速度也大大提高;本发明还公开了一种根据置信度量对识别结果加以标记的方法,以及一种带识别结果置信度评价的听写装置。

    一种语音识别系统中的快速解码方法

    公开(公告)号:CN1201284C

    公开(公告)日:2005-05-11

    申请号:CN02148682.4

    申请日:2002-11-15

    Abstract: 本发明涉及一种语音识别系统中的快速解码方法。该方法包括下述步骤:(1)对语音识别系统中的解码运算单元进行初始化;(2)从输入解码运算单元中的长度为T的语音特征码字序列中依次取出下一个语音帧的特征码字矢量,置其为t时刻语音帧Ot,1≤t≤T;(3)对t时刻语音帧Ot进行过滤;(4)基于有效语音帧OtV,对t时刻词典树令牌资源Lt的每一层I的令牌资源Lt[I]中的每一个活动节点进行判断;(5)处理处于词典树节点的令牌;(6)根据t时刻的局部路径最大概率以及前一有效语音帧对应的时刻的局部路径最大概率,对与剪枝相关的阈值做自适应调整;(7)重复上述(2)-(6)步,输出此刻已生成的与声学模型和语言模型有最佳匹配的文本串,产生语音识别结果。与传统方法相比,采用这种策略可加快解码运算的速度。

    语音识别系统及用于语音识别系统的特征矢量集的压缩方法

    公开(公告)号:CN1190772C

    公开(公告)日:2005-02-23

    申请号:CN02148683.2

    申请日:2002-11-15

    Abstract: 本发明公开一种用于语音识别系统的特征矢量集的压缩方法,在对语音特征矢量集聚类得到码本的过程中,增加了根据子集合中矢量数及矢量的总距离度量来动态合并和分裂子集合的步骤,减小了聚类后集合中矢量与其对应的码字的距离度量总和,提高了聚类算法的精度,将本发明方法压缩后的码本应用于语音识别系统中,可在保证语音系统识别性能的同时,大大降低了系统的存储量。本发明还公开一种语音识别系统,用特征码本和概率表代替声学模型,在解码的过程中不需要计算高斯概率,只须从预先存储的概率表中查找出所需的概率值,大大减少了解码运算量,因而可极大地提高系统的识别速度。

    语音识别系统及用于语音识别系统的特征矢量集的压缩方法

    公开(公告)号:CN1455388A

    公开(公告)日:2003-11-12

    申请号:CN02148683.2

    申请日:2002-11-15

    Abstract: 本发明公开一种用于语音识别系统的特征矢量集的压缩方法,在对语音特征矢量集聚类得到码本的过程中,增加了根据子集合中矢量数及矢量的总距离度量来动态合并和分裂子集合的步骤,减小了聚类后集合中矢量与其对应的码字的距离度量总和,提高了聚类算法的精度,将本发明方法压缩后的码本应用于语音识别系统中,可在保证语音系统识别性能的同时,大大降低了系统的存储量。本发明还公开一种语音识别系统,用特征码本和概率表代替声学模型,在解码的过程中不需要计算高斯概率,只须从预先存储的概率表中查找出所需的概率值,大大减少了解码运算量,因而可极大地提高系统的识别速度。

    一种基于生成对抗网络的语言模型数据增强方法

    公开(公告)号:CN110085215B

    公开(公告)日:2021-06-08

    申请号:CN201810064982.9

    申请日:2018-01-23

    Abstract: 本发明涉及一种基于生成对抗网络的语言模型数据增强方法,该方法包括:训练集S包含的都是正样本数据,生成模型Gθ生成的数据都是负样本数据,通过单独交替迭代训练生成模型Gθ和判别模型Dφ,迭代一定次数后,直到生成模型Gθ收敛,利用生成模型Gθ采样生成序列数据集合在上估计N元文法语言模型在训练数据集上估计N元文法语言模型最终通过插值算法得到增强的语言模型。针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别系统的性能。

Patent Agency Ranking