-
公开(公告)号:CN103219008B
公开(公告)日:2016-04-20
申请号:CN201310182450.2
申请日:2013-05-16
Applicant: 清华大学
Abstract: 本发明提出一种基于基状态矢量加权的短语音说话人识别方法,包括以下步骤:采集多个带文本标注的语音数据,并对多个语音数据进行训练得到状态层聚类的隐马尔可夫模型;根据状态层聚类的隐马尔可夫模型对说话人识别中的数据进行解码得到数据的基状态标注;根据数据的基状态的标注训练基状态的通用背景模型,并从MAP自适应后的模型生成基状态均值超矢量和基状态权值超矢量;根据基状态均值超矢量和基状态权值超矢量进行说话人模型训练和测试估计短语音说话人的身份。根据本发明实施例的方法,可以实现基状态层的精细建模,并通过有效的加权,克服传统方法易导致的“模型空洞”的问题,从而有效降低了建模的自由度,同时可以提高了说话人识别的性能。
-
公开(公告)号:CN103985381A
公开(公告)日:2014-08-13
申请号:CN201410209057.2
申请日:2014-05-16
Applicant: 清华大学
IPC: G10L15/08
Abstract: 本发明为一种针对真实场景下的语音数据进行音频索引的方法,将输入的语音信号进行预处理和初始化后进行声学特征提取,然后分别进行基于高斯混合模型的优化学习及量子学习,将高斯混合模型参数与量子学习参数进行融合,最后基于分类决策给出分类结果,本发明中的量子学习方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。将这种方法扩展为通用分类学习方法,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。
-
公开(公告)号:CN103714818A
公开(公告)日:2014-04-09
申请号:CN201310681894.0
申请日:2013-12-12
Applicant: 清华大学
IPC: G10L17/20
Abstract: 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。
-
公开(公告)号:CN103578466A
公开(公告)日:2014-02-12
申请号:CN201310557124.5
申请日:2013-11-11
Applicant: 清华大学
IPC: G10L15/04
Abstract: 本发明公开了语音信号处理领域的一种基于分数阶傅里叶变换的语音非语音检测方法。其技术方案是,首先对音频信号分帧,然后进行零均值化和加窗处理,接着对每帧信号进行不同阶次的分数阶傅里叶变换,得到其分数阶频谱,然后计算分数阶频谱熵,选择各个阶次中最大的分数阶频谱熵,与阈值进行比较即可得到判决结果。该方法处理方法统一,流程简单,可以有效提高提高语音非语音检测的性能;可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤。
-
公开(公告)号:CN102376306B
公开(公告)日:2013-01-23
申请号:CN201010248757.4
申请日:2010-08-04
Abstract: 本发明实施例提供一种语音帧等级的获取方法及装置,根据语音帧的编码参数,解码生成丢帧情况下和未丢帧情况下的两组解码语音信号,基于上述两组解码语音信号进行特征参数的提取,根据上述特征参数矢量、预设准则和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型,获取与上述两组解码语音信号的特征参数的特征参数矢量对应的语音帧细分等级,也就可以得到语音帧的等级。进一步地,在得到语音帧的等级后,可以对上述语音帧采取相应的保护策略,进一步能够实现对语音帧进行有效保护,从而可以有效保护语音信号中的重要信息,能够有效减少语音帧的丢帧现象的发生,提高接收端的解码语音质量。
-
-
公开(公告)号:CN101833951A
公开(公告)日:2010-09-15
申请号:CN201010118149.1
申请日:2010-03-04
Applicant: 清华大学
Abstract: 用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。
-
公开(公告)号:CN101727901A
公开(公告)日:2010-06-09
申请号:CN200910242406.X
申请日:2009-12-10
Applicant: 清华大学
Abstract: 本发明属于语音识别技术领域,尤其涉及一种嵌入式系统的汉英双语语音识别方法。包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别;其中声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;语音命令的匹配识别具体是汉英双语语音命令的识别。本发明克服了现有语音识别系统只能识别单语言的缺陷。
-
-
公开(公告)号:CN2424513Y
公开(公告)日:2001-03-21
申请号:CN00233477.1
申请日:2000-05-22
Applicant: 清华大学 , 北京安可尔通讯技术有限公司
Abstract: 本实用新型发明属于语音技术领域,它包括数字信号处理器、语音采样编解码器、微控制器、闪烁存储器、电源管理器、麦克风、喇叭。其中,数字信号处理器固化有语音处理和管理程序。具有特定人语音识别、语音提示、语音回放、0—8小时高质量数字语音录音、计算器,以及定时叫醒等功能。它可以通过数码键或语音来存储各种商务信息,还可以进行长时的会议、谈话或课堂教学录音。通过语音识别就可以方便的查询存储的各种信息。
-
-
-
-
-
-
-
-
-