-
公开(公告)号:CN111341319B
公开(公告)日:2023-05-16
申请号:CN201811559040.4
申请日:2018-12-19
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel‑fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
-
公开(公告)号:CN111341319A
公开(公告)日:2020-06-26
申请号:CN201811559040.4
申请日:2018-12-19
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
-
公开(公告)号:CN101887725A
公开(公告)日:2010-11-17
申请号:CN201010164874.2
申请日:2010-04-30
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种基于音素混淆网络的音素后验概率算法,包括:预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;在各个音素段内,搭建其对应的音素混淆网络,对网络中的每一条路径计算语音的声学似然值;利用在学习文本对应的路径上获得的声学似然值来计算音素后验概率的分子部分,将混淆网络所有路径上的声学似然值进行时间规整后累加作为音素后验概率的分母,从而计算出更为精确的音素后验概率。本发明的方法,采用一种改进的基于音素混淆网络的音素后验概率算法作为评价音素发音质量的依据,在不影响计算速度的基础上大幅度提高了发音质量评估的准确性。
-
公开(公告)号:CN101840699A
公开(公告)日:2010-09-22
申请号:CN201010164996.1
申请日:2010-04-30
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种基于发音模型的语音质量评测方法,包括1.1)确定发音质量音素集;1.2)对训练数据划分发音质量等级;1.3)依据发音质量等级训练发音模型;2.1)提取待评测发音段的语音特征;2.2)构建基于所述发音模型的解码网络,进行Viterbi解码;2.3)对每个音素计算基于发音模型的置信度;2.4)根据所述置信度得出所述待评测发音段的发音质量。本发明不仅对不同的音素进行建模,还将发音质量的优劣加以区分。基于发音模型的语音质量评测方法中搭建的解码网络,可以充分利用发音质量的差异,从而获得更为准确的音素分割点,基于发音模型的置信度计算更接近理想的音素后验概率值,因此这种基于发音模型的语音质量评测方法具有更好的评估性能。
-
公开(公告)号:CN101645271B
公开(公告)日:2011-12-07
申请号:CN200810240811.3
申请日:2008-12-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种发音质量评估系统中的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、精细声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;根据精细声学模型和对应帧的PLP特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音对应其相应状态的似然概率值;引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和;计算每一帧待评估语音的广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。本发明的方法,采用粗糙的背景模型作为后验概率分母部分计算的依据,从而极大降低广义后验概率即置信度得分的计算量。
-
公开(公告)号:CN105374352B
公开(公告)日:2019-06-18
申请号:CN201410418850.3
申请日:2014-08-22
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Inventor: 葛凤培
IPC: G10L15/22 , G10L15/20 , G10L15/06 , G10L15/187
Abstract: 本发明涉及一种语音激活方法,包括:建立声学模型,在声学模型基础上建立解码网络空间;按照噪声环境等级选择对应的静音抑制配置参数,将输入语音流切分成语音片段;提取语音片段的语音特征;将语音特征输入解码网络空间进行解码识别,获取识别语音音素;从能够表征发音单元可信程度的所有度量中选取若干个度量作为识别语音音素的若干个置信度,计算识别语音音素的若干个置信度;对识别语音音素的若干个置信度进行二次判决,包括预判决和第二次判决,输出最终识别结果。该方法克服了手指启动设备存在的缺陷,达到了较好的激活效果,为人们使用语音识别设备提供方便。
-
公开(公告)号:CN101645271A
公开(公告)日:2010-02-10
申请号:CN200810240811.3
申请日:2008-12-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种发音质量评估系统中的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、精细声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;根据精细声学模型和对应帧的PLP特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音对应其相应状态的似然概率值;引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和;计算每一帧待评估语音的广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。本发明的方法,采用粗糙的背景模型作为后验概率分母部分计算的依据,从而极大降低广义后验概率即置信度得分的计算量。
-
公开(公告)号:CN110085216A
公开(公告)日:2019-08-02
申请号:CN201810065385.8
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种婴儿哭声检测方法及装置,包括:对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与样本训练集中的语音数据对应的语音特征;利用深度神经网络算法,对样本训练集中的语音数据和与语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型;对测试语音数据进行PLP特征提取后,带入婴儿哭声的声学模型中进行学习,获取后验概率;根据后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据。利用上述方式获取的婴儿哭声的声学模型对测试语音数据进行分类,获取与所述语音数据中每一帧语音数据对应的语音类型后验概率,然后根据语音类型后验概率确定测试语音数据是否为婴儿哭声对应的语音数据,将会更加精确。
-
公开(公告)号:CN105374352A
公开(公告)日:2016-03-02
申请号:CN201410418850.3
申请日:2014-08-22
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Inventor: 葛凤培
IPC: G10L15/22 , G10L15/20 , G10L15/06 , G10L15/187
Abstract: 本发明涉及一种语音激活方法,包括:建立声学模型,在声学模型基础上建立解码网络空间;按照噪声环境等级选择对应的静音抑制配置参数,将输入语音流切分成语音片段;提取语音片段的语音特征;将语音特征输入解码网络空间进行解码识别,获取识别语音音素;从能够表征发音单元可信程度的所有度量中选取若干个度量作为识别语音音素的若干个置信度,计算识别语音音素的若干个置信度;对识别语音音素的若干个置信度进行二次判决,包括预判决和第二次判决,输出最终识别结果。该方法克服了手指启动设备存在的缺陷,达到了较好的激活效果,为人们使用语音识别设备提供方便。
-
公开(公告)号:CN101840699B
公开(公告)日:2012-08-15
申请号:CN201010164996.1
申请日:2010-04-30
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种基于发音模型的语音质量评测方法,包括1.1)确定发音质量音素集;1.2)对训练数据划分发音质量等级;1.3)依据发音质量等级训练发音模型;2.1)提取待评测发音段的语音特征;2.2)构建基于所述发音模型的解码网络,进行Viterbi解码;2.3)对每个音素计算基于发音模型的置信度;2.4)根据所述置信度得出所述待评测发音段的发音质量。本发明不仅对不同的音素进行建模,还将发音质量的优劣加以区分。基于发音模型的语音质量评测方法中搭建的解码网络,可以充分利用发音质量的差异,从而获得更为准确的音素分割点,基于发音模型的置信度计算更接近理想的音素后验概率值,因此这种基于发音模型的语音质量评测方法具有更好的评估性能。
-
-
-
-
-
-
-
-
-