一种基于门控多级特征编码网络的多模态情感识别方法

    公开(公告)号:CN117095702A

    公开(公告)日:2023-11-21

    申请号:CN202310909951.X

    申请日:2023-07-24

    Abstract: 本发明公开了一种基于门控多级特征编码网络的多模态情感识别方法,首先,对原始输入的语音和文本模态分别进行浅层特征提取;然后,针对不同模态构建深度编码网络,获取与情感相关的深层特征。为了更好的探索语音的空间信息,引入分支网络,获取基于深度卷积网络的谱图信息;设计自适应多模态门控融合模块,实现三个模态特征信息的动态融合,实现基于门控多级特征编码网络的模型搭建;最后,对基于门控多级特征编码网络的多模态情感识别方法进行性能评估;本发明进一步挖掘了输入信号的多层次情感信息并构建了基于门控的多级特征编码网络进行多模态情感识别,使得系统的情感识别性能、泛化能力进一步提升,可以很好地应用于智能人机交互中。

    基于深度学习的跨语料库语音情感识别方法

    公开(公告)号:CN115331698A

    公开(公告)日:2022-11-11

    申请号:CN202210492667.2

    申请日:2022-05-07

    Abstract: 本发明提出了一种基于深度学习的跨语料库语音情感识别方法,属于语音识别技术领域,包括以下步骤:步骤1:提取语音信号的MFCC特征及其统计特征,将其作为系统的输入,表征与情感分类标签高度相关的信息;步骤2:将这两个语料库的统计特征作为DNN的输入,用于训练DNN模型,建立源域特征到目标域特征的迁移学习关系,实现两个域统计特征的变换对齐,提升两个语料库特征之间的领域自适应能力;步骤3:根据混淆度矩阵构建以CNN为树节点的多级分类模型;步骤4:对齐后的源域数据作为该CNN‑决策树模型的输入进行最终情感分类评估。

    一种基于深度神经网络的单通道语音分离方法

    公开(公告)号:CN115273887A

    公开(公告)日:2022-11-01

    申请号:CN202210598726.4

    申请日:2022-05-30

    Abstract: 本发明公开了一种基于多重联合约束双输出深度神经网络的单通道语音分离方法,首先提出了三种联合约束损失函数,并进行整合,提出一种多重联合约束损失函数,用于训练双输出深度神经网络以解决单通道语音分离问题。该多重联合约束损失函数充分利用了网络输出值之间的关系,输出值与目标语音特征之间的关系,估计目标语音特征与混合语音特征之间的关系,在该损失函数指导下训练的深度神经网络可以输出更精确的预测值。此外,本发明采用优化思想求解了各约束项所对应的最优权重系数,使每项的约束力度更精准,进一步提升了分离系统的性能。实验结果表明,相比基于传统损失函数的方法,该方法的性能更加优越,能够更有效地分离出目标语音。

    一种基于挑选峰的连续语音共振峰提取方法

    公开(公告)号:CN115064180A

    公开(公告)日:2022-09-16

    申请号:CN202210492452.0

    申请日:2022-05-07

    Abstract: 本发明公开了一种基于挑选峰的连续语音共振峰提取方法,包括:对输入的单帧语音进行预处理操作;采用线性预测法,初步估算一帧语音频谱包络中的峰值;设立参考点和共振峰槽,然后利用挑选峰方法建立峰值与参考点之间的映射关系;利用峰值和参考点间的映射关系和共振峰槽确定一帧语音的共振峰;针对连续语音进行共振峰估算:将连续语音按照不同帧数进行分帧,利用如上算法循环100次取得不同帧数试验下的共振峰参数,对100次循环后的结果进行平均,经过平滑处理后得到最终结果。本发明方法可消除合并峰和假峰的影响,收敛速度快,鲁棒性强。

    基于强约束字典和深度神经网络的两阶段单通道语音分离方法

    公开(公告)号:CN114898769A

    公开(公告)日:2022-08-12

    申请号:CN202210532215.2

    申请日:2022-05-09

    Abstract: 本发明公开了一种基于强约束字典和深度神经网络的两阶段单通道语音分离方法。首先,基于字典学习的语音分离方法常出现“交叉投影”问题,本发明提出了强约束的优化函数,在此函数约束下构建更具有区分性的联合字典,来减少“交叉投影”。其次,为了提高两个相似信号的分离效果,本发明提出两阶段单通道语音分离方法,第一阶段利用强约束字典实现语音分离,得到初步估计信号。第二阶段利用映射能力强的深度神经网络,通过联合约束实现语音与交叉投影残余的分离,去除交叉投影残余的影响,得到精细估计信号。本发明实现了对语音分离系统性能的提升,使系统分离出的语音在五种测量指标上均有提升,适用于智能人机交互。

    一种基于CNN融合特征的说话人辨认系统

    公开(公告)号:CN110459225B

    公开(公告)日:2022-03-22

    申请号:CN201910748773.0

    申请日:2019-08-14

    Inventor: 孙林慧 邹博 顾婷

    Abstract: 本发明公开了一种基于CNN融合特征的说话人辨认系统,该系统对输入语音信号进行预处理;再利用语谱图对卷积神经网络进行训练;最后寻找最优特征后进行特征融合。该方法克服了现有语音说话人识别系统的不足,与传统基于单一深度特征的说话人系统相比较,在不增加系统训练复杂度的前提下,可以从深浅不同的层次对说话人身份信息进行更加全面地描述,从而使得系统的识别率更高,性能得到进一步提升,可以很好地应用于智能说话人身份信息的辨认。

    一种基于双层字典学习的单通道语音增强方法

    公开(公告)号:CN111383652A

    公开(公告)日:2020-07-07

    申请号:CN201911021192.3

    申请日:2019-10-25

    Abstract: 一种基于双层字典学习的单通道语音增强方法,包括如下步骤,步骤S1、对输入的语音和噪声样本进行采集、预处理及混合后,将其训练为稀疏子字典,稀疏子字典再通过约束目标优化函数获取单层联合字典和双层联合字典;步骤S2、对带噪语音进行增强处理,并将带噪语音在双层联合字典的第一层联合字典上投影,通过比较增强后的带噪语音的能量与预设能量阈值的大小,判断是否在第二层联合字典上投影;步骤S3、对所提出的基于双层字典学习的单通道语音增强方法进行性能评估。该方法根据单层字典增强后的信号中的语音和噪声的共性,依据阈值选择是否需要更加冗余的联合字典,有效减少“交叉投影”现象,提高联合字典的区分性。

    一种针对刻意伪装语音的说话人识别方法

    公开(公告)号:CN104464724A

    公开(公告)日:2015-03-25

    申请号:CN201410743616.8

    申请日:2014-12-08

    Inventor: 孙林慧 杨震

    Abstract: 本发明设计了一种针对刻意伪装语音的说话人识别方法。首先针对说话者提高音调、压低音调、快速、慢速、捏鼻子、捂嘴、咬物(叼铅笔)、嚼物(嚼口香糖)这8种刻意伪装语音在无噪声无反射的消声室中建立了合理的录制方案,然后基于基音周期预分类后再采用Mel频率倒谱系数和高斯混合模型进行说话人伪装下的辨认,最后采用自适应调整组别实现高质量的伪装语音说话人识别。该方法可应用于犯罪分子使用伪装发音掩盖身份的语音案件中。

    一种基于压缩感知的含噪语音信号重构方法及装置

    公开(公告)号:CN102915735A

    公开(公告)日:2013-02-06

    申请号:CN201210357116.1

    申请日:2012-09-21

    Abstract: 本发明公开了一种基于压缩感知的含噪语音信号重构方法,属于信号处理技术领域。本发明首先将传统压缩感知重构的优化问题转化为标准的BCQP问题,降低了求解难度;进一步利用快速梯度投影算法对其进行求解,将共轭性与梯度投影算法相结合,利用已知点处的梯度投影构造一组共轭方向,并沿彼此共轭的方向进行搜索,求出目标函数的极小值,提高了算法收敛速度;并且根据原始含噪语音信号的信噪比估计值自适应地确定最优的正则化参数,提高了重构信号的信噪比。本发明还公开了一种基于压缩感知的含噪语音信号重构装置,解码端采用本发明的重构方法。相比现有技术,本发明具有更快的收敛速度及更高的重构信号信噪比。

    一种适用于语音压缩感知的过完备字典构造方法

    公开(公告)号:CN102881293A

    公开(公告)日:2013-01-16

    申请号:CN201210380638.3

    申请日:2012-10-10

    Abstract: 本发明公开一种适用于语音压缩感知的过完备字典构造方法,步骤为:首先在训练阶段由大量的训练语音构造过完备的线性预测字典,然后在实测阶段采用随机高斯矩阵作为观测矩阵对语音信号进行CS采样;最后基于前述线性预测字典采用BP算法高质量重构语音信号。此方法不需要测试语音的预测系统,且构造方法简单,语音信号在过完备线性预测字典下呈现良好的稀疏性,基于过完备线性预测字典的语音压缩感知重构信号性能良好,且具有较好的鲁棒性。

Patent Agency Ranking