一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法

    公开(公告)号:CN114203203B

    公开(公告)日:2024-12-31

    申请号:CN202110812035.5

    申请日:2021-07-19

    Abstract: 本发明揭示了一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,包括如下步骤:S1、提取傅里叶系数特征并输入深度神经网络,训练深度神经网络以提取瓶颈特征,得到深层瓶颈层特征及浅层瓶颈层特征;S2、对深层瓶颈层特征与浅层瓶颈层特征的寻优融合;S3、对融合后的深浅层瓶颈层特征进行特征筛选,降低特征维度,提取情感区分度高的特征;S4、构建组合分类器,提出多分类器联合判决算法,进行联合判决、得到最终判决结果。本发明提取了深层瓶颈层特征和浅层瓶颈层特征,并利用GA对这两种特征进行融合,弥补了单一的瓶颈层特征不能全面表达情感信息的缺陷,进一步提升了语音情感识别效果。

    一种基于改进卷积循环网络的单通道语音增强方法

    公开(公告)号:CN119207443A

    公开(公告)日:2024-12-27

    申请号:CN202411077151.7

    申请日:2024-08-07

    Abstract: 本发明提供了一种基于改进卷积循环网络的单通道语音增强方法,包括:步骤1:下载模型训练和测试所用的数据集,通过采用VoiceBank+DEMAND数据集对数据集的语音进行预处理,并通过短时傅里叶变换(STFT)提取语音信号的幅度谱;步骤2:将幅度谱输入到编码器中,从幅度谱中提取高维特征;步骤3:使用Channel‑S4D block作为模型的递归模块,Channel‑S4D block输出的结果会输入到解码器中,被恢复到原始的维度;步骤4:构造联合损失函数;步骤5:重建和评估增强语音信号。本发明基于对角化状态空间模型构造的Channel‑S4D模块高效地处理语音序列,捕捉通道级别的语音关键信息,更好地建模语音信号的时间依赖关系,在降低模型的参数量和计算量的同时,提高了模型对复杂噪声环境的适应性。

    基于多领域统计特征和改进CNN的含噪语音情感识别方法

    公开(公告)号:CN115050395B

    公开(公告)日:2024-10-29

    申请号:CN202210494189.9

    申请日:2022-05-07

    Abstract: 本发明提出了一种基于多领域统计特征和改进CNN的含噪语音情感识别方法,属于语音识别领域,包括以下步骤:步骤1:首先对语料库中的纯净语音进行加噪处理,其次提取语音信号的相关多领域特征,采用统计函数对已提取的特征进行筛选,降低特征冗余度,得到冗余度低、情感区分度高的多领域统计特征;步骤2:搭建基于语音增强联合约束CNN‑DNN的框架;步骤3:将多领域统计特征作为系统模型的输入,提取与情感分类标签高度相关且对噪声具有鲁棒性的信息,得到输出层的情感分类结果;步骤4:对所提出的一种基于多领域统计特征和语音增强联合约束CNN‑DNN的噪声环境下语音情感识别方法进行性能评估。

    一种基于双层字典学习的单通道语音增强方法

    公开(公告)号:CN111383652B

    公开(公告)日:2023-09-12

    申请号:CN201911021192.3

    申请日:2019-10-25

    Abstract: 一种基于双层字典学习的单通道语音增强方法,包括如下步骤,步骤S1、对输入的语音和噪声样本进行采集、预处理及混合后,将其训练为稀疏子字典,稀疏子字典再通过约束目标优化函数获取单层联合字典和双层联合字典;步骤S2、对带噪语音进行增强处理,并将带噪语音在双层联合字典的第一层联合字典上投影,通过比较增强后的带噪语音的能量与预设能量阈值的大小,判断是否在第二层联合字典上投影;步骤S3、对所提出的基于双层字典学习的单通道语音增强方法进行性能评估。该方法根据单层字典增强后的信号中的语音和噪声的共性,依据阈值选择是否需要更加冗余的联合字典,有效减少“交叉投影”现象,提高联合字典的区分性。

    基于深度特征与声学特征寻优融合的语音情感识别方法

    公开(公告)号:CN111899766B

    公开(公告)日:2023-04-14

    申请号:CN202010855013.2

    申请日:2020-08-24

    Abstract: 本发明公开了一种基于深度特征与声学特征寻优融合的语音情感识别方法,提出采用遗传算法对深度瓶颈特征和声学特征进行寻优融合的方法来实现高鲁棒性语音情感识别的方法,克服了现有语音情感识别方法的不足。该方法与传统基于单一深度特征或声学特征的语音情感识别方法相比较,本发明可以从不同的层次挖掘丰富的语音情感信息,对语音情感信息进行更加全面地描述,从而使得系统的识别率更高,系统鲁棒性得到进一步提升,可以很好地应用于智能人机交互中。

    基于嵌套深度神经网络的语音情感识别方法和系统

    公开(公告)号:CN113571095A

    公开(公告)日:2021-10-29

    申请号:CN202110670269.0

    申请日:2021-06-17

    Abstract: 本发明公开了一种基于嵌套深度神经网络的语音情感识别方法和系统,方法包括:构建MFCC数据集;基于深度神经网络构建语音情感识别模型,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率;结合不同参数组及其对应的识别率,生成识别率数据集;基于深度神经网络构建参数拟合模型,用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组;将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型。本发明通过利用嵌套式的深度神经网络不断优化输入神经网络的参数,大幅提高了语音情感的识别率。

    基于深度特征与声学特征寻优融合的语音情感识别方法

    公开(公告)号:CN111899766A

    公开(公告)日:2020-11-06

    申请号:CN202010855013.2

    申请日:2020-08-24

    Abstract: 本发明公开了一种基于深度特征与声学特征寻优融合的语音情感识别方法,提出采用遗传算法对深度瓶颈特征和声学特征进行寻优融合的方法来实现高鲁棒性语音情感识别的方法,克服了现有语音情感识别方法的不足。该方法与传统基于单一深度特征或声学特征的语音情感识别方法相比较,本发明可以从不同的层次挖掘丰富的语音情感信息,对语音情感信息进行更加全面地描述,从而使得系统的识别率更高,系统鲁棒性得到进一步提升,可以很好地应用于智能人机交互中。

    单通道盲源分离方法
    8.
    发明公开

    公开(公告)号:CN108875824A

    公开(公告)日:2018-11-23

    申请号:CN201810599522.6

    申请日:2018-06-11

    Inventor: 孙林慧 谢可丽

    Abstract: 本发明提供一种单通道盲源分离方法,通过训练阶段,给定不同源语音信号训练样本Ti,求得对应的初始身份子字典Di和初始公共子字典Dc,从而得到包括初始身份子字典Di和初始公共子字典Dc的联合字典,采用优化函数迭代更新联合字典;采用稀疏编码算法求解混合信号在联合字典下的稀疏投影系数;根据子字典和稀疏向量恢复各个源信号;针对联合字典区分能力不强产生的“交叉投影”问题,本发明采用高区分性的联合字典,相比于其他的基于稀疏表示的单通道盲源分离算法,减少了源干扰,分离质量有了明显提高。

    基于DNN与GMM模型的说话人识别方法

    公开(公告)号:CN108831486A

    公开(公告)日:2018-11-16

    申请号:CN201810518855.1

    申请日:2018-05-25

    Inventor: 孙林慧 顾婷

    Abstract: 本发明揭示了一种基于DNN与GMM模型的说话人识别方法,包括如下步骤:在给定特征参数MFCC的前提下,基于GMM-SVM提取超矢量实现数据降维,并拟构建相关超矢量来提取携带更丰富的说话人身份信息的特征;构造深度信念网络体系结构来提取说话人深度特征;结合相关超矢量和瓶颈特征以构建新的说话人辨认系统。应用本发明的该说话人识别方法,较之于传统此类单独方法具备突出的实质性特点和显著的进步性:该方法弥补了传统特征参数不能挖掘语音信号深层结构信息的缺点;与传统GMM超矢量相比,相关超矢量在实现数据降维的同时在一定程度上提高了识别率,并且减少了系统建模时间。

    一种基于状态空间模型跨模态交互的多模态情感识别方法

    公开(公告)号:CN119128578A

    公开(公告)日:2024-12-13

    申请号:CN202411050481.7

    申请日:2024-08-01

    Abstract: 本发明公开了一种基于状态空间模型跨模态交互的多模态情感识别方法,属于多模态情感识别技术领域,步骤包括:首先,提取语音和文本的低级特征,并采用对角线版本的结构化状态空间序列模型提取S4D特征,以便充分利用其独特的序列建模能力和鲁棒性的特征提取能力,有效捕获声音和文本数据复杂的时间相关性;其次,为了融合声音和文本的模态特征,本发明提出了多种跨模态融合策略来动态学习模态之间的权重;此外,为了更好地区分不同类别的情感,本发明设计了一个三元组损失,并将其与交叉熵损失相结合,以提高模型在情感分类中的准确性;最后,进行了消融实验,验证了该方法的有效性。本发明有效提升了多模态情感识别系统的性能和泛化能力。

Patent Agency Ranking