一种基于深度混合模型的说话人确认方法

    公开(公告)号:CN108694950B

    公开(公告)日:2021-10-01

    申请号:CN201810465602.2

    申请日:2018-05-16

    Applicant: 清华大学

    Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。

    一种基于二次建模的说话人识别方法

    公开(公告)号:CN106898355A

    公开(公告)日:2017-06-27

    申请号:CN201710031899.7

    申请日:2017-01-17

    Applicant: 清华大学

    Abstract: 本发明提出一种基于二次建模的说话人识别方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,获取待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于设定阈值,则得到说话人识别结果;否则通过第二个DNN模型对待识别语音数据进行第二次识别,得到说话人识别结果。本发明通过建立两个DNN模型,同时考虑说话人宏观特征和微观特征,有效提高说话人识别的准确率。

    基于稀疏降维的说话人识别方法

    公开(公告)号:CN103413551B

    公开(公告)日:2015-11-18

    申请号:CN201310298757.9

    申请日:2013-07-16

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,本发明通过寻找稀疏降维投影矩阵的解路径实现稀疏降维,使得每个解路径在与其相关的范数参数上获得局部最优,最终实现全局最优,可用于说话人识别、人脸识别、手写体分类、人机交互等多种机器学习领域。

    语音帧错误检测的方法及装置

    公开(公告)号:CN102034476B

    公开(公告)日:2013-09-11

    申请号:CN200910174587.7

    申请日:2009-09-30

    Abstract: 本发明实施例提供一种语音帧错误检测及修复的方法及装置,涉及通信领域,能够利用语音信号的特点及编码参数的先验统计特性进行错误帧的检测和修复。检测方法为:在静音模式下,收到一个参数指示为正确的语音帧,则根据预先设置的检测规则对所述语音帧参数进行检测,当满足所述检测规则规定的条件时,确定所述语音帧是错误语音帧。以及,在语音模式下,收到一个参数指示为错误的语音帧,则根据所述语音帧的参数平均值对所述语音帧的静音插入描述SID进行检测,当满足检测条件时,确定所述语音帧是SID帧。本发明实施例可用于GSM全速率语音编解码。

    用于说话人识别的多背景模型建立方法

    公开(公告)号:CN101833951B

    公开(公告)日:2011-11-09

    申请号:CN201010118149.1

    申请日:2010-03-04

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。

    基于重音突显度的英语发音质量评价方法

    公开(公告)号:CN101996635A

    公开(公告)日:2011-03-30

    申请号:CN201010266766.6

    申请日:2010-08-30

    Applicant: 清华大学

    Inventor: 李坤 袁桦 刘加

    Abstract: 基于重音突显度的英语发音质量评价方法,属于语音信号技术领域,其特征包括:计算音节归一化段长,计算音节最高归一化响度,计算音节最高归一化半音程;利用突显度模型,计算音节段长突显度、音节响度突显度和音节半音程突显度;利用Bayes分类器计算音节归一化重音突显度;计算重音突显度分数,并对分数进行映射。本发明的发音质量评价方法稳健性好,能与匹配分数结合使用,以进一步提高其与专家评分的相关性,可以用于交互式的语言学习系统和自动口语评测系统中。

    用于语种识别的时频二维倒谱特征提取方法

    公开(公告)号:CN101256768B

    公开(公告)日:2011-03-30

    申请号:CN200810103328.0

    申请日:2008-04-03

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于语种识别的时频二维倒谱特征提取方法涉及一种用于语种识别的时频二维倒谱特征提取方法,其特征在于所述方法首先分帧计算语音信号子带能量,多帧子带能量拼接后得到时频分布矩阵,然后进行二维DCT变换,去除矩阵时间方向和频率方向的相关性,再对变换后的系数进行重排列并降低维数,可得到最后特征。该特征既利用了语音的短时平稳性,又提取了用于语种识别的长时信息。可以用于语种识别。

    一种用于语种识别的建模方法及装置

    公开(公告)号:CN101894548A

    公开(公告)日:2010-11-24

    申请号:CN201010207237.9

    申请日:2010-06-23

    Applicant: 清华大学

    Inventor: 何亮 张卫强 刘加

    Abstract: 本发明的实施例提出了一种用于语种识别的建模方法,包括输入语音数据,对语音数据预处理得到特征序列,将特征矢量映射为超矢量,对超矢量进行投影补偿,通过支持向量机算法建立训练语种模型;对待测语音采用上述步骤得到待测超矢量,对待测超矢量进行投影补偿,利用语种模型对所述待测超矢量打分,识别待测语音的语言种类。本发明实施例还提出了一种用于语种识别的建模装置包括语音预处理模块、特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块。根据本发明实施例提供的方法及装置,去除高维统计量中对识别无效的信息,提高语种识别的正确率,降低在集成电路上的运算复杂度。

    基于语种对的鉴别式语种识别模型建立方法

    公开(公告)号:CN101702314A

    公开(公告)日:2010-05-05

    申请号:CN200910235393.3

    申请日:2009-10-13

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 基于语种对的鉴别式语种识别模型建立方法涉及一种用于语种识别的建模方法,其特征在于所述方法首先对语音数据提取特征得到特征矢量,接着采用Baum-Welch算法进行ML训练得到初始GMM模型参数,然后利用GMM模型对特征矢量计算分子项和分母统计量,并对分子统计量进行平滑,由平滑后的分子统计量和分母统计量计算更新系数,最后按更新公式对GMM模型参数进行更新。该建模方法从语种对的局部入手,更能抓住语种间的鉴别性信息,从而获得更好的识别性能。可以用于语种识别模型的鉴别式建模。

Patent Agency Ranking