基于基状态矢量加权的短语音说话人识别方法

    公开(公告)号:CN103219008B

    公开(公告)日:2016-04-20

    申请号:CN201310182450.2

    申请日:2013-05-16

    Applicant: 清华大学

    Abstract: 本发明提出一种基于基状态矢量加权的短语音说话人识别方法,包括以下步骤:采集多个带文本标注的语音数据,并对多个语音数据进行训练得到状态层聚类的隐马尔可夫模型;根据状态层聚类的隐马尔可夫模型对说话人识别中的数据进行解码得到数据的基状态标注;根据数据的基状态的标注训练基状态的通用背景模型,并从MAP自适应后的模型生成基状态均值超矢量和基状态权值超矢量;根据基状态均值超矢量和基状态权值超矢量进行说话人模型训练和测试估计短语音说话人的身份。根据本发明实施例的方法,可以实现基状态层的精细建模,并通过有效的加权,克服传统方法易导致的“模型空洞”的问题,从而有效降低了建模的自由度,同时可以提高了说话人识别的性能。

    一种基于参数融合优化决策的音频索引方法

    公开(公告)号:CN103985381A

    公开(公告)日:2014-08-13

    申请号:CN201410209057.2

    申请日:2014-05-16

    Applicant: 清华大学

    Inventor: 杨毅 刘加 孙甲松

    Abstract: 本发明为一种针对真实场景下的语音数据进行音频索引的方法,将输入的语音信号进行预处理和初始化后进行声学特征提取,然后分别进行基于高斯混合模型的优化学习及量子学习,将高斯混合模型参数与量子学习参数进行融合,最后基于分类决策给出分类结果,本发明中的量子学习方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。将这种方法扩展为通用分类学习方法,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

    基于噪声屏蔽核的说话人识别方法

    公开(公告)号:CN103714818A

    公开(公告)日:2014-04-09

    申请号:CN201310681894.0

    申请日:2013-12-12

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。

    基于分数阶傅里叶变换的语音非语音检测方法

    公开(公告)号:CN103578466A

    公开(公告)日:2014-02-12

    申请号:CN201310557124.5

    申请日:2013-11-11

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 本发明公开了语音信号处理领域的一种基于分数阶傅里叶变换的语音非语音检测方法。其技术方案是,首先对音频信号分帧,然后进行零均值化和加窗处理,接着对每帧信号进行不同阶次的分数阶傅里叶变换,得到其分数阶频谱,然后计算分数阶频谱熵,选择各个阶次中最大的分数阶频谱熵,与阈值进行比较即可得到判决结果。该方法处理方法统一,流程简单,可以有效提高提高语音非语音检测的性能;可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤。

    语音帧等级的获取方法及装置

    公开(公告)号:CN102376306B

    公开(公告)日:2013-01-23

    申请号:CN201010248757.4

    申请日:2010-08-04

    Abstract: 本发明实施例提供一种语音帧等级的获取方法及装置,根据语音帧的编码参数,解码生成丢帧情况下和未丢帧情况下的两组解码语音信号,基于上述两组解码语音信号进行特征参数的提取,根据上述特征参数矢量、预设准则和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型,获取与上述两组解码语音信号的特征参数的特征参数矢量对应的语音帧细分等级,也就可以得到语音帧的等级。进一步地,在得到语音帧的等级后,可以对上述语音帧采取相应的保护策略,进一步能够实现对语音帧进行有效保护,从而可以有效保护语音信号中的重要信息,能够有效减少语音帧的丢帧现象的发生,提高接收端的解码语音质量。

    计算机辅助语言学习系统中的发音质量评价方法

    公开(公告)号:CN101246685B

    公开(公告)日:2011-03-30

    申请号:CN200810102076.X

    申请日:2008-03-17

    Applicant: 清华大学

    Inventor: 刘加

    Abstract: 本发明属于语音技术领域,计算机辅助语言学习系统中的发音质量评价方法,包括:匹配分数的计算、基于美尔(Mel)频标的感知分数的计算、段长分数的计算和基音分数的计算,并将上述分数映射后进行融合;本发明的发音质量评价方法具有稳健性好,与专家评分相关性高的优点,可以用于交互式语言学习和自动口语测试。

    用于说话人识别的多背景模型建立方法

    公开(公告)号:CN101833951A

    公开(公告)日:2010-09-15

    申请号:CN201010118149.1

    申请日:2010-03-04

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。

    嵌入式系统的汉英双语语音识别方法

    公开(公告)号:CN101727901A

    公开(公告)日:2010-06-09

    申请号:CN200910242406.X

    申请日:2009-12-10

    Applicant: 清华大学

    Inventor: 刘加 钱彦旻

    Abstract: 本发明属于语音识别技术领域,尤其涉及一种嵌入式系统的汉英双语语音识别方法。包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别;其中声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;语音命令的匹配识别具体是汉英双语语音命令的识别。本发明克服了现有语音识别系统只能识别单语言的缺陷。

    基于语音识别专用芯片的非特定人语音识别、语音提示方法

    公开(公告)号:CN1141696C

    公开(公告)日:2004-03-10

    申请号:CN00105548.8

    申请日:2000-03-31

    Applicant: 清华大学

    Abstract: 本发明属于语音技术领域,涉及基于语音识别专用芯片的非特定人语音识别、语音提示方法。包括:非特定人语音识别的预先训练、语音识别参数提取、非特定人语音命令的识别、非特定人语音识别的说话人自适应学习、语音提示。本识别方法具有方法简单、识别率高、稳健性好等特点。构成的系统可以用于玩具控制、声控拨号、智能性家用电器、学习机、以及生产环节的控制系统中。

    多功能语音识别记事本及大容量数字录音一体机

    公开(公告)号:CN2424513Y

    公开(公告)日:2001-03-21

    申请号:CN00233477.1

    申请日:2000-05-22

    Abstract: 本实用新型发明属于语音技术领域,它包括数字信号处理器、语音采样编解码器、微控制器、闪烁存储器、电源管理器、麦克风、喇叭。其中,数字信号处理器固化有语音处理和管理程序。具有特定人语音识别、语音提示、语音回放、0—8小时高质量数字语音录音、计算器,以及定时叫醒等功能。它可以通过数码键或语音来存储各种商务信息,还可以进行长时的会议、谈话或课堂教学录音。通过语音识别就可以方便的查询存储的各种信息。

Patent Agency Ranking