一种基于音素混淆网络的音素后验概率计算方法

    公开(公告)号:CN101887725A

    公开(公告)日:2010-11-17

    申请号:CN201010164874.2

    申请日:2010-04-30

    Inventor: 葛凤培 颜永红

    Abstract: 本发明提供一种基于音素混淆网络的音素后验概率算法,包括:预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;在各个音素段内,搭建其对应的音素混淆网络,对网络中的每一条路径计算语音的声学似然值;利用在学习文本对应的路径上获得的声学似然值来计算音素后验概率的分子部分,将混淆网络所有路径上的声学似然值进行时间规整后累加作为音素后验概率的分母,从而计算出更为精确的音素后验概率。本发明的方法,采用一种改进的基于音素混淆网络的音素后验概率算法作为评价音素发音质量的依据,在不影响计算速度的基础上大幅度提高了发音质量评估的准确性。

    一种基于发音模型的语音质量评测方法

    公开(公告)号:CN101840699A

    公开(公告)日:2010-09-22

    申请号:CN201010164996.1

    申请日:2010-04-30

    Inventor: 葛凤培 颜永红

    Abstract: 本发明提供一种基于发音模型的语音质量评测方法,包括1.1)确定发音质量音素集;1.2)对训练数据划分发音质量等级;1.3)依据发音质量等级训练发音模型;2.1)提取待评测发音段的语音特征;2.2)构建基于所述发音模型的解码网络,进行Viterbi解码;2.3)对每个音素计算基于发音模型的置信度;2.4)根据所述置信度得出所述待评测发音段的发音质量。本发明不仅对不同的音素进行建模,还将发音质量的优劣加以区分。基于发音模型的语音质量评测方法中搭建的解码网络,可以充分利用发音质量的差异,从而获得更为准确的音素分割点,基于发音模型的置信度计算更接近理想的音素后验概率值,因此这种基于发音模型的语音质量评测方法具有更好的评估性能。

    发音质量评估系统中的置信度快速求取方法

    公开(公告)号:CN101645271B

    公开(公告)日:2011-12-07

    申请号:CN200810240811.3

    申请日:2008-12-23

    Abstract: 本发明提供一种发音质量评估系统中的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、精细声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;根据精细声学模型和对应帧的PLP特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音对应其相应状态的似然概率值;引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和;计算每一帧待评估语音的广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。本发明的方法,采用粗糙的背景模型作为后验概率分母部分计算的依据,从而极大降低广义后验概率即置信度得分的计算量。

    一种语音激活方法及系统

    公开(公告)号:CN105374352B

    公开(公告)日:2019-06-18

    申请号:CN201410418850.3

    申请日:2014-08-22

    Inventor: 葛凤培

    Abstract: 本发明涉及一种语音激活方法,包括:建立声学模型,在声学模型基础上建立解码网络空间;按照噪声环境等级选择对应的静音抑制配置参数,将输入语音流切分成语音片段;提取语音片段的语音特征;将语音特征输入解码网络空间进行解码识别,获取识别语音音素;从能够表征发音单元可信程度的所有度量中选取若干个度量作为识别语音音素的若干个置信度,计算识别语音音素的若干个置信度;对识别语音音素的若干个置信度进行二次判决,包括预判决和第二次判决,输出最终识别结果。该方法克服了手指启动设备存在的缺陷,达到了较好的激活效果,为人们使用语音识别设备提供方便。

    发音质量评估系统中的置信度快速求取方法

    公开(公告)号:CN101645271A

    公开(公告)日:2010-02-10

    申请号:CN200810240811.3

    申请日:2008-12-23

    Abstract: 本发明提供一种发音质量评估系统中的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、精细声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;根据精细声学模型和对应帧的PLP特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音对应其相应状态的似然概率值;引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和;计算每一帧待评估语音的广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。本发明的方法,采用粗糙的背景模型作为后验概率分母部分计算的依据,从而极大降低广义后验概率即置信度得分的计算量。

    一种婴儿哭声检测方法及装置

    公开(公告)号:CN110085216A

    公开(公告)日:2019-08-02

    申请号:CN201810065385.8

    申请日:2018-01-23

    Abstract: 本发明涉及一种婴儿哭声检测方法及装置,包括:对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与样本训练集中的语音数据对应的语音特征;利用深度神经网络算法,对样本训练集中的语音数据和与语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型;对测试语音数据进行PLP特征提取后,带入婴儿哭声的声学模型中进行学习,获取后验概率;根据后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据。利用上述方式获取的婴儿哭声的声学模型对测试语音数据进行分类,获取与所述语音数据中每一帧语音数据对应的语音类型后验概率,然后根据语音类型后验概率确定测试语音数据是否为婴儿哭声对应的语音数据,将会更加精确。

    一种语音激活方法及系统

    公开(公告)号:CN105374352A

    公开(公告)日:2016-03-02

    申请号:CN201410418850.3

    申请日:2014-08-22

    Inventor: 葛凤培

    Abstract: 本发明涉及一种语音激活方法,包括:建立声学模型,在声学模型基础上建立解码网络空间;按照噪声环境等级选择对应的静音抑制配置参数,将输入语音流切分成语音片段;提取语音片段的语音特征;将语音特征输入解码网络空间进行解码识别,获取识别语音音素;从能够表征发音单元可信程度的所有度量中选取若干个度量作为识别语音音素的若干个置信度,计算识别语音音素的若干个置信度;对识别语音音素的若干个置信度进行二次判决,包括预判决和第二次判决,输出最终识别结果。该方法克服了手指启动设备存在的缺陷,达到了较好的激活效果,为人们使用语音识别设备提供方便。

    一种基于发音模型的语音质量评测方法

    公开(公告)号:CN101840699B

    公开(公告)日:2012-08-15

    申请号:CN201010164996.1

    申请日:2010-04-30

    Inventor: 葛凤培 颜永红

    Abstract: 本发明提供一种基于发音模型的语音质量评测方法,包括1.1)确定发音质量音素集;1.2)对训练数据划分发音质量等级;1.3)依据发音质量等级训练发音模型;2.1)提取待评测发音段的语音特征;2.2)构建基于所述发音模型的解码网络,进行Viterbi解码;2.3)对每个音素计算基于发音模型的置信度;2.4)根据所述置信度得出所述待评测发音段的发音质量。本发明不仅对不同的音素进行建模,还将发音质量的优劣加以区分。基于发音模型的语音质量评测方法中搭建的解码网络,可以充分利用发音质量的差异,从而获得更为准确的音素分割点,基于发音模型的置信度计算更接近理想的音素后验概率值,因此这种基于发音模型的语音质量评测方法具有更好的评估性能。

Patent Agency Ranking