基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统

    公开(公告)号:CN106971713A

    公开(公告)日:2017-07-21

    申请号:CN201710035673.4

    申请日:2017-01-18

    Applicant: 清华大学

    Abstract: 本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统,属于声纹识别和模式识别领域。本发明方法首先建立训练语音数据库,得到通用背景模型和子空间模型;然后通过i‑vector因子提取方法得到待测语音数据的每一段的i‑vector因子;使用密度峰值聚类算法得出待测语音数据的说话人个数和说话人在各个时刻的先验概率,使用变分贝叶斯迭代估计每个片段对应每个说话人的后验概率,得出说话人标记结果。本发明解决了现有技术中说话人个数和说话人在各个时刻的先验概率的初始值估计的不确定性,说话人标记性能极易受初始值影响而产生较大偏差等问题;增强了说话人标记的准确率、稳定性和灵活性。

    基于分数阶傅里叶变换的语音非语音检测方法

    公开(公告)号:CN103578466B

    公开(公告)日:2016-02-10

    申请号:CN201310557124.5

    申请日:2013-11-11

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 本发明公开了语音信号处理领域的一种基于分数阶傅里叶变换的语音非语音检测方法。其技术方案是,首先对音频信号分帧,然后进行零均值化和加窗处理,接着对每帧信号进行不同阶次的分数阶傅里叶变换,得到其分数阶频谱,然后计算分数阶频谱熵,选择各个阶次中最大的分数阶频谱熵,与阈值进行比较即可得到判决结果。该方法处理方法统一,流程简单,可以有效提高语音非语音检测的性能;可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤。

    特征提取方法、装置及重音检测的方法、装置

    公开(公告)号:CN104575519A

    公开(公告)日:2015-04-29

    申请号:CN201310488434.6

    申请日:2013-10-17

    Abstract: 本发明公开了一种特征提取方法、装置及重音检测的方法、装置,涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括:依据预设的音素与声学特征发音属性的对应关系,通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量;依据预设的音素与元辅音发音属性的对应关系,通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量;将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。

    韵律事件检测方法和装置
    14.
    发明公开

    公开(公告)号:CN104575518A

    公开(公告)日:2015-04-29

    申请号:CN201310487945.6

    申请日:2013-10-17

    Abstract: 本发明公开一种韵律事件检测方法和装置,涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn;以音节为单位划分待检测语音,得到至少一个待检测样本;提取每个待检测样本对应的待检测声学特征;使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。

    神经网络语言模型的训练方法、装置以及语音识别方法

    公开(公告)号:CN104376842A

    公开(公告)日:2015-02-25

    申请号:CN201310349690.7

    申请日:2013-08-12

    Abstract: 本发明公开了一种神经网络语言模型的训练方法、装置以及语音识别方法,涉及语音识别技术。为解决现有技术在降低神经网络语言模型计算复杂度时,神经网络语言模型识别正确率降低的问题。提供的技术方案包括:在对神经网络语言模型的参数进行训练的过程中,采用输出层的归一化因子对目标代价函数进行修正,获取修正后的目标代价函数;根据修正后的目标代价函数对神经网络语言模型的参数进行更新,获取神经网络语言模型训练后的目标参数,其中,目标参数使得训练后的神经网络语言模型中归一化因子为常数。该方案可以应用在神经网络语音识别过程中。

    基于稀疏降维的说话人识别方法

    公开(公告)号:CN103413551A

    公开(公告)日:2013-11-27

    申请号:CN201310298757.9

    申请日:2013-07-16

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,本发明通过寻找稀疏降维投影矩阵的解路径实现稀疏降维,使得每个解路径在与其相关的范数参数上获得局部最优,最终实现全局最优,可用于说话人识别、人脸识别、手写体分类、人机交互等多种机器学习领域。

    一种用于语种识别的建模方法及装置

    公开(公告)号:CN101894548B

    公开(公告)日:2012-07-04

    申请号:CN201010207237.9

    申请日:2010-06-23

    Applicant: 清华大学

    Inventor: 何亮 张卫强 刘加

    Abstract: 本发明的实施例提出了一种用于语种识别的建模方法,包括输入语音数据,对语音数据预处理得到特征序列,将特征矢量映射为超矢量,对超矢量进行投影补偿,通过支持向量机算法建立训练语种模型;对待测语音采用上述步骤得到待测超矢量,对待测超矢量进行投影补偿,利用语种模型对所述待测超矢量打分,识别待测语音的语言种类。本发明实施例还提出了一种用于语种识别的建模装置包括语音预处理模块、特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块。根据本发明实施例提供的方法及装置,去除高维统计量中对识别无效的信息,提高语种识别的正确率,降低在集成电路上的运算复杂度。

    语音帧等级的获取方法及装置

    公开(公告)号:CN102376306A

    公开(公告)日:2012-03-14

    申请号:CN201010248757.4

    申请日:2010-08-04

    Abstract: 本发明实施例提供一种语音帧等级的获取方法及装置,根据语音帧的编码参数,解码生成丢帧情况下和未丢帧情况下的两组解码语音信号,基于上述两组解码语音信号进行特征参数的提取,根据上述特征参数矢量、预设准则和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型,获取与上述两组解码语音信号的特征参数的特征参数矢量对应的语音帧细分等级,也就可以得到语音帧的等级。进一步地,在得到语音帧的等级后,可以对上述语音帧采取相应的保护策略,进一步能够实现对语音帧进行有效保护,从而可以有效保护语音信号中的重要信息,能够有效减少语音帧的丢帧现象的发生,提高接收端的解码语音质量。

    基于重音突显度的英语发音质量评价方法

    公开(公告)号:CN101996635B

    公开(公告)日:2012-02-08

    申请号:CN201010266766.6

    申请日:2010-08-30

    Applicant: 清华大学

    Inventor: 李坤 袁桦 刘加

    Abstract: 基于重音突显度的英语发音质量评价方法,属于语音信号技术领域,其特征包括:计算音节归一化段长,计算音节最高归一化响度,计算音节最高归一化半音程;利用突显度模型,计算音节段长突显度、音节响度突显度和音节半音程突显度;利用Bayes分类器计算音节归一化重音突显度;计算重音突显度分数,并对分数进行映射。本发明的发音质量评价方法稳健性好,能与匹配分数结合使用,以进一步提高其与专家评分的相关性,可以用于交互式的语言学习系统和自动口语评测系统中。

    嵌入式系统的汉英双语语音识别方法

    公开(公告)号:CN101727901B

    公开(公告)日:2011-11-09

    申请号:CN200910242406.X

    申请日:2009-12-10

    Applicant: 清华大学

    Inventor: 刘加 钱彦旻

    Abstract: 本发明属于语音识别技术领域,尤其涉及一种嵌入式系统的汉英双语语音识别方法。包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别;其中声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;语音命令的匹配识别具体是汉英双语语音命令的识别。本发明克服了现有语音识别系统只能识别单语言的缺陷。

Patent Agency Ranking