基于深度特征与声学特征寻优融合的语音情感识别方法

    公开(公告)号:CN111899766B

    公开(公告)日:2023-04-14

    申请号:CN202010855013.2

    申请日:2020-08-24

    Abstract: 本发明公开了一种基于深度特征与声学特征寻优融合的语音情感识别方法,提出采用遗传算法对深度瓶颈特征和声学特征进行寻优融合的方法来实现高鲁棒性语音情感识别的方法,克服了现有语音情感识别方法的不足。该方法与传统基于单一深度特征或声学特征的语音情感识别方法相比较,本发明可以从不同的层次挖掘丰富的语音情感信息,对语音情感信息进行更加全面地描述,从而使得系统的识别率更高,系统鲁棒性得到进一步提升,可以很好地应用于智能人机交互中。

    基于深度特征与声学特征寻优融合的语音情感识别方法

    公开(公告)号:CN111899766A

    公开(公告)日:2020-11-06

    申请号:CN202010855013.2

    申请日:2020-08-24

    Abstract: 本发明公开了一种基于深度特征与声学特征寻优融合的语音情感识别方法,提出采用遗传算法对深度瓶颈特征和声学特征进行寻优融合的方法来实现高鲁棒性语音情感识别的方法,克服了现有语音情感识别方法的不足。该方法与传统基于单一深度特征或声学特征的语音情感识别方法相比较,本发明可以从不同的层次挖掘丰富的语音情感信息,对语音情感信息进行更加全面地描述,从而使得系统的识别率更高,系统鲁棒性得到进一步提升,可以很好地应用于智能人机交互中。

    一种基于状态空间模型跨模态交互的多模态情感识别方法

    公开(公告)号:CN119128578A

    公开(公告)日:2024-12-13

    申请号:CN202411050481.7

    申请日:2024-08-01

    Abstract: 本发明公开了一种基于状态空间模型跨模态交互的多模态情感识别方法,属于多模态情感识别技术领域,步骤包括:首先,提取语音和文本的低级特征,并采用对角线版本的结构化状态空间序列模型提取S4D特征,以便充分利用其独特的序列建模能力和鲁棒性的特征提取能力,有效捕获声音和文本数据复杂的时间相关性;其次,为了融合声音和文本的模态特征,本发明提出了多种跨模态融合策略来动态学习模态之间的权重;此外,为了更好地区分不同类别的情感,本发明设计了一个三元组损失,并将其与交叉熵损失相结合,以提高模型在情感分类中的准确性;最后,进行了消融实验,验证了该方法的有效性。本发明有效提升了多模态情感识别系统的性能和泛化能力。

    一种基于师生模型的多任务约束端到端含噪语音情感识别方法

    公开(公告)号:CN119170055A

    公开(公告)日:2024-12-20

    申请号:CN202410951511.5

    申请日:2024-07-16

    Abstract: 本发明公开了一种基于师生模型的多任务约束端到端含噪语音情感识别方法,包括:提出一个端到端的基于师生模型的多任务约束网络,借鉴知识蒸馏的思想,完成教师模型的多任务训练后,采用已训练成熟的教师模型提炼出纯净、显著的情感特征,来指导学生模型的训练过程;引入了一种多级增强损失机制,使学生模型能够在中间层学习到教师模型从干净语音中提取的关键情感信息;采用了语音增强辅助任务的思想,将语音增强辅助任务与多级增强损失相结合;在测试阶段时,仅需关注学生模型中特定于语音情感识别分类的核心流程,有效地提升了测试的执行速率。本发明实现了噪声环境下的语音情感识别任务,使情感分类准确率提升,适用于智能客服和心理健康监测。

    一种基于通道注意力机制和Transformer的端到端含噪语音分离方法

    公开(公告)号:CN119170038A

    公开(公告)日:2024-12-20

    申请号:CN202410951123.7

    申请日:2024-07-16

    Abstract: 本发明公开了一种基于通道注意力机制和Transformer的端到端含噪语音分离方法,包括:构建了时序感知上下文通道注意力层,从特征的通道维度对其进行有效地过滤和筛选;同时,由于时序感知和上下文感知特性的存在,进一步提高了含噪下通道权重分配的合理性;其次,为了增强编码器输出的语音潜在特征的全局表达和建模能力,提出双向LSTM‑Transformer编码器层,其中带有双向LSTM的前馈层进一步丰富了多头注意力特征中的全局上下文信息,提升了编码器进行特征编码的有效性。本发明实现了在复杂噪声下语音分离系统性能的提升,并且在各种分离测试指标上均显示出提升,另外合理的特征筛选所带来的模型复杂度的降低和有效性的提升,使得本发明适合大多涉及人机交互的应用场景。

    一种基于选择性状态空间模型的含噪语音分离方法

    公开(公告)号:CN118782065A

    公开(公告)日:2024-10-15

    申请号:CN202410934275.6

    申请日:2024-07-12

    Abstract: 本发明公开了一种基于选择性状态空间模型的含噪语音分离方法,属于语音分离技术领域。该方法在时域语音分离框架中引入具有选择机制的Mamba来设计U型选择性语音分离模块(UMamba),以提高模型对噪声和语音的区分能力,从而减少含噪语音分离任务中的信号和噪声的误分配问题,并降低了模型的参数量。该方法首先使用一维卷积提取语音特征,然后利用设计的U型选择性语音分离模块(UMamba)进行语音分离,并通过特征精炼器(FeaturePcs)进一步增强分离后的语音特征,最后通过一维反卷积层恢复语音信号,实现端到端的语音分离。最后对所提出的方法进行性能评估,本发明保持很小的模型参数量但能取得优秀的性能,是一种对资源有限的用户十分友好的方法。

    基于卷积神经网络和联合优化的单通道语音分离方法

    公开(公告)号:CN113539293B

    公开(公告)日:2023-12-26

    申请号:CN202110911979.8

    申请日:2021-08-10

    Abstract: 本发明公开了一种基于卷积神经网络和联合优化的单通道语音分离方法,属于语音分离技术领域,包括对语音信号进行预处理,提取单个信号和混合语音信号的幅度谱特征,并计算多通道特征和目标信号的理想浮值掩蔽;将多通道特征输入卷积神经网络,并提取深度特征;将深度特征和多通道特征进行融合,作为全连接层的输入,输出为目标信号的理想浮值掩蔽,并进行参数寻优以训练卷积神经网络;将混合语音信号输入训练后的卷积神经网络,以实现对混合语音信号进行分离。本发明通过将混合幅度谱特征与深度特征在融合层进行融合来训练分离模型,使输入特征所包含的语音信息更加的丰富;对网络参数进行联合优化,使得分离语音的清晰度和可懂度大幅提高。

    基于多任务协同注意门控网络的含噪语音情感识别方法

    公开(公告)号:CN116721677A

    公开(公告)日:2023-09-08

    申请号:CN202310892828.1

    申请日:2023-07-20

    Abstract: 本发明提供了一种基于多任务协同注意门控网络的含噪语音情感识别方法,通过将语音情感分类主任务与语音增强次任务相结合的多任务协同注意门控网络,提高了特征的鲁棒性,在噪声环境下获得了优异的情绪识别性能;针对语音情感分类主任务,利用情感特征的通道和空间信息,融合局部特征和全局特征,提高了在语音情感识别系统中特征表达的可分辨性;模型中的次任务为语音增强,以降低噪声对深层特征的影响,通过共享表示学习使系统的整体鲁棒性得到加强,实现了噪声环境语音情感分类系统性能的提升。

    一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法

    公开(公告)号:CN114203203A

    公开(公告)日:2022-03-18

    申请号:CN202110812035.5

    申请日:2021-07-19

    Abstract: 本发明揭示了一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,包括如下步骤:S1、提取傅里叶系数特征并输入深度神经网络,训练深度神经网络以提取瓶颈特征,得到深层瓶颈层特征及浅层瓶颈层特征;S2、对深层瓶颈层特征与浅层瓶颈层特征的寻优融合;S3、对融合后的深浅层瓶颈层特征进行特征筛选,降低特征维度,提取情感区分度高的特征;S4、构建组合分类器,提出多分类器联合判决算法,进行联合判决、得到最终判决结果。本发明提取了深层瓶颈层特征和浅层瓶颈层特征,并利用GA对这两种特征进行融合,弥补了单一的瓶颈层特征不能全面表达情感信息的缺陷,进一步提升了语音情感识别效果。

Patent Agency Ranking