一种残差长短期记忆循环神经网络的声学模型建模方法

    公开(公告)号:CN107293288B

    公开(公告)日:2020-04-21

    申请号:CN201710432477.0

    申请日:2017-06-09

    申请人: 清华大学

    发明人: 黄露 杨毅 孙甲松

    摘要: 一种残差长短期记忆循环神经网络的声学模型建模方法,将标准的长短期记忆神经网络架构的输入和内部节点直连,在直连处将该节点处原来的向量和输入向量拼接,然后投影至原来的维度;本发明提出的方法,给出一个供于直连的内部节点位置,实验表明此位置能够带来识别的性能提升,并结合基于帧的Dropout技术进一步提升系统性能;这种方法提升了基于长短期记忆循环神经网络的语音识别系统的性能,并且结合基于帧的Dropout技术来防止过拟合问题,实现了提升模型泛化能力的目的,该方法可广泛应用于涉及语音识别的多种人机交互领域。

    一种使用互为先验约束模型的命令词识别方法与系统

    公开(公告)号:CN111754981A

    公开(公告)日:2020-10-09

    申请号:CN202010593154.1

    申请日:2020-06-26

    申请人: 清华大学

    摘要: 一种使用互为先验约束模型的命令词识别方法,基于端到端语音命令词识别结构,所述端到端语音命令词识别结构包括用于从音频中提取音素特征的音素模块、从音素特征中提取单词特征的单词模块以及从单词特征中提取语义特征的语义模块,其特征在于,所述语义模块采用先后顺序识别命令词,将独立的识别过程变为有先后顺序的互为先验约束的识别过程,即先识别出一个内容成分,再通过该内容成分影响其它内容成分的识别结果,从而达到提高准确率的目的,本发明还提供了相应的系统。与现有技术相比,本发明利用了变量之间的相关性,大大提高了识别的准确率。

    一种基于参数融合优化决策的音频索引方法

    公开(公告)号:CN103985381B

    公开(公告)日:2016-09-21

    申请号:CN201410209057.2

    申请日:2014-05-16

    申请人: 清华大学

    发明人: 杨毅 刘加 孙甲松

    IPC分类号: G10L15/08

    摘要: 本发明为一种针对真实场景下的语音数据进行音频索引的方法,将输入的语音信号进行预处理和初始化后进行声学特征提取,然后分别进行基于高斯混合模型的优化学习及量子学习,将高斯混合模型参数与量子学习参数进行融合,最后基于分类决策给出分类结果,本发明中的量子学习方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。将这种方法扩展为通用分类学习方法,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

    一种基于深度长短期记忆循环神经网络的连续语音识别方法

    公开(公告)号:CN104538028A

    公开(公告)日:2015-04-22

    申请号:CN201410821646.6

    申请日:2014-12-25

    申请人: 清华大学

    发明人: 杨毅 孙甲松

    IPC分类号: G10L15/16

    CPC分类号: G10L15/16

    摘要: 一种鲁棒深度长短期记忆循环神经网络声学模型的构建方法,将带噪语音信号和原始纯净语音信号作为训练样本,构建两个结构完全相同的深度长短期记忆循环神经网络模块,在这两个模块的每一层深度长短期记忆层之间通过交叉熵计算获得两者差异,并用线性循环投影层对交叉熵参数进行更新,最终得到对环境噪声鲁棒的深度长短期记忆循环神经网络声学模型;本发明提出的方法,通过构建深度长短期记忆循环神经网络声学模型,提高了对带噪连续语音信号的语音识别率,避免了深度神经网络参数规模大导致大部分计算工作需要在GPU设备上完成的问题,具有计算复杂度低、收敛速度快等特点,可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

    将视觉内容转换为虚拟动画视觉表示的方法及装置

    公开(公告)号:CN118154733A

    公开(公告)日:2024-06-07

    申请号:CN202410265968.0

    申请日:2024-03-08

    申请人: 清华大学

    发明人: 杨毅 冯昊 孙甲松

    摘要: 本申请公开一种将视觉内容转换为虚拟动画视觉表示的方法及装置,其中,方法包括:将获取目标场景中的原始视觉数据进行预处理,得到处理后的视觉数据;提取处理后的视觉数据中的通用视觉特征和目标语义,并分别进行编码,得到通用语义文本数据和目标语义文本数据并进行融合,得到融合文本数据,利用目标大规模生成模型对融合文本数据进行解码,得到解码文本数据,从而得到用于虚拟动画视觉表示的虚拟动画视觉数据。由此,解决了相关技术中在6G语义通信中采用大规模生成模型实现元宇宙虚拟环境或智能辅助驾驶等应用,难以准确保留重建场景中的人类情绪,降低了虚拟动画视觉表示的准确性,无法满足虚拟动画视觉表示的需求的问题。

    基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法

    公开(公告)号:CN104700828B

    公开(公告)日:2018-01-12

    申请号:CN201510122982.6

    申请日:2015-03-19

    申请人: 清华大学

    发明人: 杨毅 孙甲松

    IPC分类号: G10L15/02 G10L15/06 G10L15/16

    CPC分类号: G10L15/02 G10L15/06

    摘要: 一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,通过在深度长短期记忆循环神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时间序列上存在间隔;通过对包含Cross‑talk噪声的大量语音数据进行训练获得的上述神经网络声学模型,可以实现对Cross‑talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的;该方法可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

    分布式麦克风阵列网络的鲁棒声源空间定位方法

    公开(公告)号:CN105388459B

    公开(公告)日:2017-08-11

    申请号:CN201510808753.X

    申请日:2015-11-20

    申请人: 清华大学

    发明人: 杨毅 孙甲松

    IPC分类号: G01S5/22

    摘要: 本发明为一种分布式麦克风阵列网络的鲁棒声源空间定位方法,通过构建三维空间坐标系、估计到达时间差并降低混响干扰、估计声源位置、最终判定声源位置,本发明使用两个麦克风阵列确定三维空间坐标,充分利用麦克风阵列网络中存在的时延信息降低室内混响带来的干扰;并将空间坐标区域进行划分,通过两次估计来最终确定声源的空间位置,本发明性能和计算代价优于现有技术水平,具有应用广泛,结构简单,成本低廉的优点,适用于智能家居和智能监控等使用分布式麦克风阵列网络的场景。

    分布式麦克风阵列网络的鲁棒声源空间定位方法

    公开(公告)号:CN105388459A

    公开(公告)日:2016-03-09

    申请号:CN201510808753.X

    申请日:2015-11-20

    申请人: 清华大学

    发明人: 杨毅 孙甲松

    IPC分类号: G01S5/22

    CPC分类号: G01S5/22

    摘要: 本发明为一种分布式麦克风阵列网络的鲁棒声源空间定位方法,通过构建三维空间坐标系、估计到达时间差并降低混响干扰、估计声源位置、最终判定声源位置,本发明使用两个麦克风阵列确定三维空间坐标,充分利用麦克风阵列网络中存在的时延信息降低室内混响带来的干扰;并将空间坐标区域进行划分,通过两次估计来最终确定声源的空间位置,本发明性能和计算代价优于现有技术水平,具有应用广泛,结构简单,成本低廉的优点,适用于智能家居和智能监控等使用分布式麦克风阵列网络的场景。

    基于图像的情绪识别方法、装置、设备和存储介质

    公开(公告)号:CN116740691A

    公开(公告)日:2023-09-12

    申请号:CN202310637461.9

    申请日:2023-05-31

    申请人: 清华大学

    摘要: 本申请提供一种基于图像的情绪识别方法、装置、设备和存储介质,涉及深度学习技术领域,包括获取目标图像及目标用户针对目标图像的描述文本,目标图像为可引起用户产生情绪的图像;将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕;针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一PAD值;并确定描述文本对应的第二PAD值;根据多个第一PAD值和第二PAD值,确定目标PAD值,进而根据目标PAD值,确定目标用户的情绪状态,有利于提高识别结果的准确率。另外,根据得到的多种情绪风格的图像字幕,可以进一步提高用户情绪状态识别结果的准确率。