一种基于多任务神经网络的多样例关键词检测方法

    公开(公告)号:CN108538285A

    公开(公告)日:2018-09-14

    申请号:CN201810180347.7

    申请日:2018-03-05

    Applicant: 清华大学

    Abstract: 本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。

    一种面向音频事件检测的双层基音特征提取方法

    公开(公告)号:CN106205638B

    公开(公告)日:2019-11-08

    申请号:CN201610430195.2

    申请日:2016-06-16

    Applicant: 清华大学

    Inventor: 王健飞 张卫强

    Abstract: 本发明公开了属于音频事件检测技术领域的一种面向音频事件检测的双层基音特征提取方法。包括采集音频信号,将音频信号格式标准化:声音信号预处理和PITCH特征后处理,对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前面数个有效频域值;目前,通过对该双层基音特征的处理,可以有效提升对长时域周期性音频事件的检测。

    用于说话人识别的多背景模型建立方法

    公开(公告)号:CN101833951B

    公开(公告)日:2011-11-09

    申请号:CN201010118149.1

    申请日:2010-03-04

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。

    用于语种识别的时频二维倒谱特征提取方法

    公开(公告)号:CN101256768B

    公开(公告)日:2011-03-30

    申请号:CN200810103328.0

    申请日:2008-04-03

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于语种识别的时频二维倒谱特征提取方法涉及一种用于语种识别的时频二维倒谱特征提取方法,其特征在于所述方法首先分帧计算语音信号子带能量,多帧子带能量拼接后得到时频分布矩阵,然后进行二维DCT变换,去除矩阵时间方向和频率方向的相关性,再对变换后的系数进行重排列并降低维数,可得到最后特征。该特征既利用了语音的短时平稳性,又提取了用于语种识别的长时信息。可以用于语种识别。

    一种用于语种识别的建模方法及装置

    公开(公告)号:CN101894548A

    公开(公告)日:2010-11-24

    申请号:CN201010207237.9

    申请日:2010-06-23

    Applicant: 清华大学

    Inventor: 何亮 张卫强 刘加

    Abstract: 本发明的实施例提出了一种用于语种识别的建模方法,包括输入语音数据,对语音数据预处理得到特征序列,将特征矢量映射为超矢量,对超矢量进行投影补偿,通过支持向量机算法建立训练语种模型;对待测语音采用上述步骤得到待测超矢量,对待测超矢量进行投影补偿,利用语种模型对所述待测超矢量打分,识别待测语音的语言种类。本发明实施例还提出了一种用于语种识别的建模装置包括语音预处理模块、特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块。根据本发明实施例提供的方法及装置,去除高维统计量中对识别无效的信息,提高语种识别的正确率,降低在集成电路上的运算复杂度。

    基于语种对的鉴别式语种识别模型建立方法

    公开(公告)号:CN101702314A

    公开(公告)日:2010-05-05

    申请号:CN200910235393.3

    申请日:2009-10-13

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 基于语种对的鉴别式语种识别模型建立方法涉及一种用于语种识别的建模方法,其特征在于所述方法首先对语音数据提取特征得到特征矢量,接着采用Baum-Welch算法进行ML训练得到初始GMM模型参数,然后利用GMM模型对特征矢量计算分子项和分母统计量,并对分子统计量进行平滑,由平滑后的分子统计量和分母统计量计算更新系数,最后按更新公式对GMM模型参数进行更新。该建模方法从语种对的局部入手,更能抓住语种间的鉴别性信息,从而获得更好的识别性能。可以用于语种识别模型的鉴别式建模。

    有害语音的识别方法、装置、计算机设备和存储介质

    公开(公告)号:CN113327601B

    公开(公告)日:2024-02-13

    申请号:CN202110579536.3

    申请日:2021-05-26

    Applicant: 清华大学

    Abstract: 本申请涉及一种有害语音的识别方法、装置、计算机设备和存储介质。方法包括:将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值;对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断。相较于使用单阈值方式对有害语音进行识别,采用双阈值方式更便于对置信度阈值进行调整,进而提高有害语音识别的分类效果。

Patent Agency Ranking