-
-
公开(公告)号:CN1123862C
公开(公告)日:2003-10-08
申请号:CN00105547.X
申请日:2000-03-31
Applicant: 清华大学
Abstract: 本发明属于语音技术领域,涉及基于语音识别专用芯片的特定人语音识别、语音回放方法,包括:语音识别参数提取、特定人语音命令的训练、特定人语音命令的识别、语音回放。本识别方法具有方法简单、识别率高、稳健性好等特点。构成的系统可以用于玩具控制、声控拨号、智能性家用电器、学习机、以及生产环节的控制系统中。
-
-
公开(公告)号:CN110379433B
公开(公告)日:2021-10-08
申请号:CN201910711306.0
申请日:2019-08-02
Applicant: 清华大学 , 北京华控智加科技有限公司
Abstract: 本申请涉及一种身份验证的方法、装置、计算机设备及存储介质。方法包括:获取目标用户根据目标动态验证码输入的语音数据;根据预设的分段算法,将语音数据划分为至少一个语音帧;针对每个语音帧,根据预设的声学特征提取算法,提取该语音帧对应的声学特征向量;将该语音帧对应的声学特征向量输入至预先训练的身份验证多任务模型,输出该语音帧对应的中间用户特征向量和第一后验概率集合;根据各语音帧对应的中间用户特征向量和预设的池化算法,确定目标用户对应的第一用户特征向量;根据目标用户对应的第一用户特征向量和各语音帧对应的第一后验概率集合,对目标用户进行身份验证。采用本申请可以降低服务器的计算复杂度,提高服务器的处理效率。
-
公开(公告)号:CN108538285B
公开(公告)日:2021-05-04
申请号:CN201810180347.7
申请日:2018-03-05
Applicant: 清华大学
Abstract: 本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。
-
公开(公告)号:CN108510977B
公开(公告)日:2020-05-22
申请号:CN201810235261.X
申请日:2018-03-21
Applicant: 清华大学
IPC: G10L15/00 , G10L15/02 , G10L15/197
Abstract: 本发明提供了一种语种识别方法及计算机设备,首先获取多个语种的语音样本,通过多个语种样本中每一语音样本的每一音素序列的N元文法的特征超矢量的概率值与二叉决策树特征超矢量比较计算,再将所有音素序列的比较计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合特征超矢量可以使长上下文音素序列更准确的建模,从而可以让一个语音段的特征描述更加精细,提高语种识别性能。
-
公开(公告)号:CN111091073A
公开(公告)日:2020-05-01
申请号:CN201911204850.2
申请日:2019-11-29
Applicant: 清华大学
Abstract: 本发明实施例提供一种将视频和音频联合的异常事件监控设备及方法,设备包括:相机成像模块,用于采集和发送视频信号;麦克风阵列收音模块,用于采集和发送音频信号;视频处理模块,用于确定视频信号异常情况;音频处理模块,用于确定音频信号异常情况;音频视频联合处理模块,用于异常事件判断。本发明实施例融合视频信号和音频信号,根据视频处理模块的异常事件判断的结果和音频处理模块的异常事件判断的结果,综合判断是否发生了异常事件。
-
公开(公告)号:CN104575519B
公开(公告)日:2018-12-25
申请号:CN201310488434.6
申请日:2013-10-17
Applicant: 清华大学 , 深圳市车音网科技有限公司
Abstract: 本发明公开了一种特征提取方法、装置及重音检测的方法、装置,涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括:依据预设的音素与声学特征发音属性的对应关系,通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量;依据预设的音素与元辅音发音属性的对应关系,通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量;将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。
-
公开(公告)号:CN107633845A
公开(公告)日:2018-01-26
申请号:CN201710812259.X
申请日:2017-09-11
Applicant: 清华大学
Abstract: 本发明提出一种鉴别式局部信息距离保持映射的说话人确认方法,属于声纹识别、模式识别与机器学习领域。该方法在训练阶段获取训练语音数据并提取每条训练语音数据的i-vector;根据每个说话人对应的训练语音数据,提取每个说话人的i-vector;训练得到鉴别式局部保持映射矩阵;在说话人确认阶段,获取待测语音数据并选定一个训练语音数据的说话人,计算待测语音数据与该说话人的i-vector距离,若该距离小于设定的距离阈值,则判断待测语音数据属于说话人;说话人确认完成。本发明适用性强,且着重考虑了异类近邻点,增强对易混说话人语音的鉴别,具有更好的区分能力,提高说话人确认的准确率。
-
公开(公告)号:CN107452403A
公开(公告)日:2017-12-08
申请号:CN201710817534.7
申请日:2017-09-12
Applicant: 清华大学
Abstract: 本发明提出一种说话人标记方法,属于声纹识别、模式识别与机器学习技术领域。本方法包括三个阶段:在第一阶段,通过i-vector概率线性鉴别分析凝聚层次聚类方法将待测语音数据分为长度相等的片段,然后将片段聚为与说话人总数相等的类;在第二阶段,利用第一阶段的聚类结果,得到片段属于说话人的先验概率;在第三阶段,通过基于软判决的变分贝叶斯隐马尔科夫方法进行迭代,当系统收敛时,计算片段所属的说话人,说话人标记结束。本发明结合了两种说话人标记方法的优点,可有效地提高说话人标记的准确率。
-
-
-
-
-
-
-
-
-