一种基于概率线性鉴别分析模型的说话人聚类方法及系统

    公开(公告)号:CN105469784B

    公开(公告)日:2019-01-08

    申请号:CN201410459009.9

    申请日:2014-09-10

    IPC分类号: G10L15/06 G10L17/00 G10L17/04

    摘要: 本发明涉及一种基于概率线性鉴别分析模型的说话人聚类方法及系统,包括:采集一定数量的语音数据作为训练语句,生成概率线性鉴别分析(PLDA)模型;对待聚类说话人语句进行预处理;提取预处理后的待聚类说话人语句的MFCC特征;基于MFCC特征计算所有待聚类说话人语句的总变化量因子;基于生成的PLDA模型计算两两待聚类说话人语句的总变化量因子的PLDA距离;基于PLDA距离确定的密度值选择初始的类别数目和每个类包含的语句;最后通过聚类算法获取最终的类别数目和每个类包含的语句。本方法采用基于总变化量因子PLDA距离使距离测度更加准确;而且本方法基于密度值选择初始类,从而达到稳定的聚类效果。

    一种说话人识别方法及系统

    公开(公告)号:CN103077720A

    公开(公告)日:2013-05-01

    申请号:CN201210555152.9

    申请日:2012-12-19

    IPC分类号: G10L17/12

    摘要: 本发明涉及一种说话人识别方法,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,进一步提高说话人识别性能。

    一种基于频率调制信息的人工耳蜗语音处理方法及处理器

    公开(公告)号:CN101642399A

    公开(公告)日:2010-02-10

    申请号:CN200810239725.0

    申请日:2008-12-16

    IPC分类号: A61F11/04 G10L21/02

    摘要: 本发明提供一种基于频率调制信息的人工耳蜗语音处理方法及处理器,将语音信号进行预加重之后,经所述分析滤波器组分解为几个子频带,然后提取各个子带信号的时域包络信息,采用希尔伯特变换的方法提取低频部分的频率调制信息,与时域包络相乘,得到包含频率调制信息的合成时域包络,接着通过所述脉冲发生器,利用所得到的各个子带时域包络调制脉冲序列,再将各子带的调制脉冲相加得到最终合成的刺激信号,发送到电极产生电脉冲刺激听觉神经。本发明的人工耳蜗语音处理器适合母语为汉语的耳聋患者在噪声环境下进行言语识别并具有噪声鲁棒性,使得耳聋患者感受到更多精细的语音结构信息,增强耳聋患者在噪声下的言语识别能力,有助于声调的辨识。

    一种采用总变化量因子的语种识别方法及系统

    公开(公告)号:CN104575495A

    公开(公告)日:2015-04-29

    申请号:CN201310495417.5

    申请日:2013-10-21

    IPC分类号: G10L15/10 G10L15/06

    摘要: 本发明提出了一种基于总变化量因子的语种识别方法及系统,所述方法包含:步骤101)提取某语种若干段训练语音的声学特征,并依据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子,其中每一句话的总变化量因子是一个矢量;步骤102)利用支持向量机训练一组一对一和一对多模型,然后选择若干个总变量因子对所述一对一和一对多模型打分,依据得分矩阵训练一个高斯后端分类器模型;步骤103)输入测试语音,并提取测试语音的声学特征,然后根据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子,再对102)中的一对多和一对一模型打分,最后将得分向量输入所述的高斯后端分类器模型进行判决并输出识别结果。

    一种说话人识别方法及系统

    公开(公告)号:CN103077720B

    公开(公告)日:2015-02-11

    申请号:CN201210555152.9

    申请日:2012-12-19

    IPC分类号: G10L17/12

    摘要: 本发明涉及一种说话人识别方法,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,进一步提高说话人识别性能。

    概率线性鉴别分析模型生成方法和说话人聚类方法及系统

    公开(公告)号:CN105469784A

    公开(公告)日:2016-04-06

    申请号:CN201410459009.9

    申请日:2014-09-10

    IPC分类号: G10L15/06 G10L17/00 G10L17/04

    摘要: 本发明涉及概率线性鉴别分析模型生成方法和说话人聚类方法及系统,包括:采集一定数量的语音数据作为训练语句,生成概率线性鉴别分析(PLDA)模型;对待聚类说话人语句进行预处理;提取预处理后的待聚类说话人语句的MFCC特征;基于MFCC特征计算所有待聚类说话人语句的总变化量因子;基于生成的PLDA模型计算两两待聚类说话人语句的总变化量因子的PLDA距离;基于PLDA距离确定的密度值选择初始的类别数目和每个类包含的语句;最后通过聚类算法获取最终的类别数目和每个类包含的语句。本方法采用基于总变化量因子PLDA距离使距离测度更加准确;而且本方法基于密度值选择初始类,从而达到稳定的聚类效果。

    一种说话人识别方法
    7.
    发明公开

    公开(公告)号:CN105261367A

    公开(公告)日:2016-01-20

    申请号:CN201410334124.3

    申请日:2014-07-14

    IPC分类号: G10L17/02

    摘要: 本发明涉及一种说话人识别方法,该方法首先生成说话人识别模型,把背景语音和目标说话人语音作为训练数据,训练出第一高斯混合-通用背景模型,总变化空间,第二高斯混合-通用背景模型,局部线性鉴别分析模型;利用第一高斯混合-通用背景模型,总变化空间,第二高斯混合-通用背景模型计算出待识别语音的总变化因子和总变化因子的后验概率,输入局部线性鉴别分析模型进行转换,得到维数更低的矢量,输入后端识别器输出识别结果。本方法增加了说话人间的鉴别性,可提高说话人识别性能;同时该方法可以对总变化因子进行降维,提升了识别速度,具有很高的实用性。

    一种基于频率调制信息的人工耳蜗语音处理方法及处理器

    公开(公告)号:CN101642399B

    公开(公告)日:2011-04-06

    申请号:CN200810239725.0

    申请日:2008-12-16

    IPC分类号: A61F11/04 G10L21/02

    摘要: 本发明提供一种基于频率调制信息的人工耳蜗语音处理方法及处理器,将语音信号进行预加重之后,经所述分析滤波器组分解为几个子频带,然后提取各个子带信号的时域包络信息,采用希尔伯特变换的方法提取低频部分的频率调制信息,与时域包络相乘,得到包含频率调制信息的合成时域包络,接着通过所述脉冲发生器,利用所得到的各个子带时域包络调制脉冲序列,再将各子带的调制脉冲相加得到最终合成的刺激信号,发送到电极产生电脉冲刺激听觉神经。本发明的人工耳蜗语音处理器适合母语为汉语的耳聋患者在噪声环境下进行言语识别并具有噪声鲁棒性,使得耳聋患者感受到更多精细的语音结构信息,增强耳聋患者在噪声下的言语识别能力,有助于声调的辨识。

    一种说话人识别方法
    9.
    发明授权

    公开(公告)号:CN105261367B

    公开(公告)日:2019-03-15

    申请号:CN201410334124.3

    申请日:2014-07-14

    IPC分类号: G10L17/02

    摘要: 本发明涉及一种说话人识别方法,该方法首先生成说话人识别模型,把背景语音和目标说话人语音作为训练数据,训练出第一高斯混合‑通用背景模型,总变化空间,第二高斯混合‑通用背景模型,局部线性鉴别分析模型;利用第一高斯混合‑通用背景模型,总变化空间,第二高斯混合‑通用背景模型计算出待识别语音的总变化因子和总变化因子的后验概率,输入局部线性鉴别分析模型进行转换,得到维数更低的矢量,输入后端识别器输出识别结果。本方法增加了说话人间的鉴别性,可提高说话人识别性能;同时该方法可以对总变化因子进行降维,提升了识别速度,具有很高的实用性。