-
公开(公告)号:CN105469784A
公开(公告)日:2016-04-06
申请号:CN201410459009.9
申请日:2014-09-10
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及概率线性鉴别分析模型生成方法和说话人聚类方法及系统,包括:采集一定数量的语音数据作为训练语句,生成概率线性鉴别分析(PLDA)模型;对待聚类说话人语句进行预处理;提取预处理后的待聚类说话人语句的MFCC特征;基于MFCC特征计算所有待聚类说话人语句的总变化量因子;基于生成的PLDA模型计算两两待聚类说话人语句的总变化量因子的PLDA距离;基于PLDA距离确定的密度值选择初始的类别数目和每个类包含的语句;最后通过聚类算法获取最终的类别数目和每个类包含的语句。本方法采用基于总变化量因子PLDA距离使距离测度更加准确;而且本方法基于密度值选择初始类,从而达到稳定的聚类效果。
-
公开(公告)号:CN105304073A
公开(公告)日:2016-02-03
申请号:CN201410325609.6
申请日:2014-07-09
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于非负矩阵分解的敲击弦乐器的音乐多音符估计方法,该方法利用敲击弦乐器的单音音频数据构建音符能量谱包络基矩阵,通过对多音能量谱包络的非负矩阵分解,求得各音符在多音片段中的能量权重系数,最后对音符权重大小进行阈值限定求得多音片段中的多音符分布。与传统方法比较,基于非负矩阵分解的音乐多音符估计方法只利用了音符起始点处的能量谱包络信息,同时结合了能量谱包络的线性叠加性来分解能量谱,符合局部构建整体的音符叠加机理,多音符估计性能得到明显提升,同时系统速度也有一定提升,具有很高的实用性。
-
公开(公告)号:CN105261367A
公开(公告)日:2016-01-20
申请号:CN201410334124.3
申请日:2014-07-14
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L17/02
Abstract: 本发明涉及一种说话人识别方法,该方法首先生成说话人识别模型,把背景语音和目标说话人语音作为训练数据,训练出第一高斯混合-通用背景模型,总变化空间,第二高斯混合-通用背景模型,局部线性鉴别分析模型;利用第一高斯混合-通用背景模型,总变化空间,第二高斯混合-通用背景模型计算出待识别语音的总变化因子和总变化因子的后验概率,输入局部线性鉴别分析模型进行转换,得到维数更低的矢量,输入后端识别器输出识别结果。本方法增加了说话人间的鉴别性,可提高说话人识别性能;同时该方法可以对总变化因子进行降维,提升了识别速度,具有很高的实用性。
-
公开(公告)号:CN103077709A
公开(公告)日:2013-05-01
申请号:CN201210587263.8
申请日:2012-12-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/14
Abstract: 本发明涉及一种基于共有鉴别性子空间映射的语种识别方法及装置,该方法包括:提取一个语种的多个语音数据的语音特征;根据所述语音特征得到所述多个语音数据的高斯超向量,其中,每个语音数据对应一组高斯超向量;将所述高斯超向量映射到共有鉴别性子空间,得到与所述高斯超向量对应的低维向量,其中,所述共有鉴别性子空间是预先用多个语种的语音数据建立的;以及分别计算所述低维向量在多个支持向量机SVM模型上的得分,根据多个得分识别出所述语种,其中,所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的,每个SVM模型对应一个语种。相比于直接对高斯超向量进行建模,本发明的语种识别方法由于其低维和鉴别性,训练速度更快,识别性能有了明显提高。
-
-
-