身份验证的方法、装置、计算机设备及存储介质

    公开(公告)号:CN110379433B

    公开(公告)日:2021-10-08

    申请号:CN201910711306.0

    申请日:2019-08-02

    Abstract: 本申请涉及一种身份验证的方法、装置、计算机设备及存储介质。方法包括:获取目标用户根据目标动态验证码输入的语音数据;根据预设的分段算法,将语音数据划分为至少一个语音帧;针对每个语音帧,根据预设的声学特征提取算法,提取该语音帧对应的声学特征向量;将该语音帧对应的声学特征向量输入至预先训练的身份验证多任务模型,输出该语音帧对应的中间用户特征向量和第一后验概率集合;根据各语音帧对应的中间用户特征向量和预设的池化算法,确定目标用户对应的第一用户特征向量;根据目标用户对应的第一用户特征向量和各语音帧对应的第一后验概率集合,对目标用户进行身份验证。采用本申请可以降低服务器的计算复杂度,提高服务器的处理效率。

    一种基于多任务神经网络的多样例关键词检测方法

    公开(公告)号:CN108538285B

    公开(公告)日:2021-05-04

    申请号:CN201810180347.7

    申请日:2018-03-05

    Applicant: 清华大学

    Abstract: 本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。

    语种识别方法及计算机设备

    公开(公告)号:CN108510977B

    公开(公告)日:2020-05-22

    申请号:CN201810235261.X

    申请日:2018-03-21

    Applicant: 清华大学

    Abstract: 本发明提供了一种语种识别方法及计算机设备,首先获取多个语种的语音样本,通过多个语种样本中每一语音样本的每一音素序列的N元文法的特征超矢量的概率值与二叉决策树特征超矢量比较计算,再将所有音素序列的比较计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合特征超矢量可以使长上下文音素序列更准确的建模,从而可以让一个语音段的特征描述更加精细,提高语种识别性能。

    一种将视频和音频联合的异常事件监控设备及方法

    公开(公告)号:CN111091073A

    公开(公告)日:2020-05-01

    申请号:CN201911204850.2

    申请日:2019-11-29

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种将视频和音频联合的异常事件监控设备及方法,设备包括:相机成像模块,用于采集和发送视频信号;麦克风阵列收音模块,用于采集和发送音频信号;视频处理模块,用于确定视频信号异常情况;音频处理模块,用于确定音频信号异常情况;音频视频联合处理模块,用于异常事件判断。本发明实施例融合视频信号和音频信号,根据视频处理模块的异常事件判断的结果和音频处理模块的异常事件判断的结果,综合判断是否发生了异常事件。

    特征提取方法、装置及重音检测的方法、装置

    公开(公告)号:CN104575519B

    公开(公告)日:2018-12-25

    申请号:CN201310488434.6

    申请日:2013-10-17

    Abstract: 本发明公开了一种特征提取方法、装置及重音检测的方法、装置,涉及语音检测技术。为解决现有技术在重音检测上准确率低的问题。技术方案包括:依据预设的音素与声学特征发音属性的对应关系,通过第一分类器进行输出所述声学特征发音属性的第一帧级特征向量;依据预设的音素与元辅音发音属性的对应关系,通过第二分类器将所述声学特征发音属性的第一帧级特征向量进行输出所述元辅音发音属性的第二帧级特征向量;将所述声学特征发音属性的第一帧级特征向量或所述元辅音发音属性的第二帧级特征向量进行映射所述帧级对应的音节级发音特征向量。该方案可以应用语音检测过程中。

    一种鉴别式局部信息距离保持映射的说话人确认方法

    公开(公告)号:CN107633845A

    公开(公告)日:2018-01-26

    申请号:CN201710812259.X

    申请日:2017-09-11

    Applicant: 清华大学

    Abstract: 本发明提出一种鉴别式局部信息距离保持映射的说话人确认方法,属于声纹识别、模式识别与机器学习领域。该方法在训练阶段获取训练语音数据并提取每条训练语音数据的i-vector;根据每个说话人对应的训练语音数据,提取每个说话人的i-vector;训练得到鉴别式局部保持映射矩阵;在说话人确认阶段,获取待测语音数据并选定一个训练语音数据的说话人,计算待测语音数据与该说话人的i-vector距离,若该距离小于设定的距离阈值,则判断待测语音数据属于说话人;说话人确认完成。本发明适用性强,且着重考虑了异类近邻点,增强对易混说话人语音的鉴别,具有更好的区分能力,提高说话人确认的准确率。

    一种说话人标记方法
    48.
    发明公开

    公开(公告)号:CN107452403A

    公开(公告)日:2017-12-08

    申请号:CN201710817534.7

    申请日:2017-09-12

    Applicant: 清华大学

    Abstract: 本发明提出一种说话人标记方法,属于声纹识别、模式识别与机器学习技术领域。本方法包括三个阶段:在第一阶段,通过i-vector概率线性鉴别分析凝聚层次聚类方法将待测语音数据分为长度相等的片段,然后将片段聚为与说话人总数相等的类;在第二阶段,利用第一阶段的聚类结果,得到片段属于说话人的先验概率;在第三阶段,通过基于软判决的变分贝叶斯隐马尔科夫方法进行迭代,当系统收敛时,计算片段所属的说话人,说话人标记结束。本发明结合了两种说话人标记方法的优点,可有效地提高说话人标记的准确率。

    基于基状态矢量加权的短语音说话人识别方法

    公开(公告)号:CN103219008B

    公开(公告)日:2016-04-20

    申请号:CN201310182450.2

    申请日:2013-05-16

    Applicant: 清华大学

    Abstract: 本发明提出一种基于基状态矢量加权的短语音说话人识别方法,包括以下步骤:采集多个带文本标注的语音数据,并对多个语音数据进行训练得到状态层聚类的隐马尔可夫模型;根据状态层聚类的隐马尔可夫模型对说话人识别中的数据进行解码得到数据的基状态标注;根据数据的基状态的标注训练基状态的通用背景模型,并从MAP自适应后的模型生成基状态均值超矢量和基状态权值超矢量;根据基状态均值超矢量和基状态权值超矢量进行说话人模型训练和测试估计短语音说话人的身份。根据本发明实施例的方法,可以实现基状态层的精细建模,并通过有效的加权,克服传统方法易导致的“模型空洞”的问题,从而有效降低了建模的自由度,同时可以提高了说话人识别的性能。

    一种基于参数融合优化决策的音频索引方法

    公开(公告)号:CN103985381A

    公开(公告)日:2014-08-13

    申请号:CN201410209057.2

    申请日:2014-05-16

    Applicant: 清华大学

    Inventor: 杨毅 刘加 孙甲松

    Abstract: 本发明为一种针对真实场景下的语音数据进行音频索引的方法,将输入的语音信号进行预处理和初始化后进行声学特征提取,然后分别进行基于高斯混合模型的优化学习及量子学习,将高斯混合模型参数与量子学习参数进行融合,最后基于分类决策给出分类结果,本发明中的量子学习方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。将这种方法扩展为通用分类学习方法,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

Patent Agency Ranking