-
公开(公告)号:CN119150216A
公开(公告)日:2024-12-17
申请号:CN202410949698.5
申请日:2024-07-16
Applicant: 南京邮电大学
IPC: G06F18/25 , G06F18/21 , G06F18/241 , G06N3/0455 , G06N3/0442 , G06N3/048 , G06N3/084 , G06N3/0985
Abstract: 本发明公开了一种基于Transformer模态内感知和模态间交叉融合的多模态情感识别方法,步骤包括:首先,对语音和文本进行编码提取深度特征,然后基于本发明提出的基于Transformer的模态内感知模块,捕获各个模态内部的长距离依赖关系,实现情感特征的局部感知学习,降低深度特征中的冗余信息;其次,为了融合未对齐的多模态序列信息,充分利用不同模态信息的互补性,本发明提出基于Transformer的模态间交互融合模块来捕捉不同模态间信息依赖关系,获得融合后的多模态全局信息;最后,进行了消融实验,验证了该方法的有效性。本发明实现了对多模态情感识别的有效并行计算,进一步提高多模态情感识别系统的识别性能和泛化能力。
-
公开(公告)号:CN119107963A
公开(公告)日:2024-12-10
申请号:CN202410954745.5
申请日:2024-07-17
Applicant: 南京邮电大学
IPC: G10L21/02 , G10L21/0316
Abstract: 本发明公开了一种基于多头注意力机制和Bi‑LSTM的复数去混响语音增强方法,属于语音增强技术领域。本发明在复数域进行去混响处理,首先将信号进行STFT变换得到复数谱,以充分地利用幅度和相位信息。然后将复数谱特征送入高级通道注意力机制HCA以融合特征。其次,为了能够捕捉输入序列内部不同位置之间的相关性并利用时间和频率信息捕捉语音关键成分,设计了一种时频双路径复多头注意力机制TF‑CMHA,更准确地识别语音成分并抑制混响成分。最后,引入了复乘法运算和联合约束损失函数,模拟幅值和相位之间的相关关系,获得更为精确的长时语音相关性的描述。本发明实现了对去混响语音增强系统性能的提升,使系统去混响后的语音在各种测量指标上均有提升,适用于语音前端处理。
-
公开(公告)号:CN117095702A
公开(公告)日:2023-11-21
申请号:CN202310909951.X
申请日:2023-07-24
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于门控多级特征编码网络的多模态情感识别方法,首先,对原始输入的语音和文本模态分别进行浅层特征提取;然后,针对不同模态构建深度编码网络,获取与情感相关的深层特征。为了更好的探索语音的空间信息,引入分支网络,获取基于深度卷积网络的谱图信息;设计自适应多模态门控融合模块,实现三个模态特征信息的动态融合,实现基于门控多级特征编码网络的模型搭建;最后,对基于门控多级特征编码网络的多模态情感识别方法进行性能评估;本发明进一步挖掘了输入信号的多层次情感信息并构建了基于门控的多级特征编码网络进行多模态情感识别,使得系统的情感识别性能、泛化能力进一步提升,可以很好地应用于智能人机交互中。
-
公开(公告)号:CN115331698A
公开(公告)日:2022-11-11
申请号:CN202210492667.2
申请日:2022-05-07
Applicant: 南京邮电大学
Abstract: 本发明提出了一种基于深度学习的跨语料库语音情感识别方法,属于语音识别技术领域,包括以下步骤:步骤1:提取语音信号的MFCC特征及其统计特征,将其作为系统的输入,表征与情感分类标签高度相关的信息;步骤2:将这两个语料库的统计特征作为DNN的输入,用于训练DNN模型,建立源域特征到目标域特征的迁移学习关系,实现两个域统计特征的变换对齐,提升两个语料库特征之间的领域自适应能力;步骤3:根据混淆度矩阵构建以CNN为树节点的多级分类模型;步骤4:对齐后的源域数据作为该CNN‑决策树模型的输入进行最终情感分类评估。
-
公开(公告)号:CN115273887A
公开(公告)日:2022-11-01
申请号:CN202210598726.4
申请日:2022-05-30
Applicant: 南京邮电大学
IPC: G10L21/0272 , G10L21/0308 , G10L25/30
Abstract: 本发明公开了一种基于多重联合约束双输出深度神经网络的单通道语音分离方法,首先提出了三种联合约束损失函数,并进行整合,提出一种多重联合约束损失函数,用于训练双输出深度神经网络以解决单通道语音分离问题。该多重联合约束损失函数充分利用了网络输出值之间的关系,输出值与目标语音特征之间的关系,估计目标语音特征与混合语音特征之间的关系,在该损失函数指导下训练的深度神经网络可以输出更精确的预测值。此外,本发明采用优化思想求解了各约束项所对应的最优权重系数,使每项的约束力度更精准,进一步提升了分离系统的性能。实验结果表明,相比基于传统损失函数的方法,该方法的性能更加优越,能够更有效地分离出目标语音。
-
公开(公告)号:CN117912482A
公开(公告)日:2024-04-19
申请号:CN202311641887.8
申请日:2023-12-01
Applicant: 南京邮电大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明公开了一种基于全卷积神经网络多任务学习的时域语音分离方法,该方法在语音分离支路构建全卷积神经网络,网络的输入和目标分别采用时域混合语音和纯净语音,运用卷积编码器和反卷积解码器完成端到端的语音分离。另外,将混合语音性别组合检测任务整合到语音分离网络中,在两个任务联合约束下获取辅助信息特征和语音分离特征,并将这些深度特征相结合来提升语音分离质量。该时域语音分离方法不仅不需要进行相位恢复和频域到时域的重构,而且可以从混合语音性别组合检测任务中提取有效的辅助信息特征,实现更有效的语音分离。最后对所提出的方法进行性能评估,实验表明,相比单任务的语音分离方法,本发明方法性能更佳。
-
公开(公告)号:CN117524243A
公开(公告)日:2024-02-06
申请号:CN202311016180.8
申请日:2023-08-14
Applicant: 南京邮电大学
IPC: G10L21/028 , G10L21/0308 , G10L21/0208 , G10L25/30
Abstract: 本发明公开了一种基于联合约束和共享编码器的噪声感知时域语音分离方法。首先,含噪情况下的语音分离会出现估计语音中残余噪声的问题,本发明提出将噪声作为与语音同等的估计目标,直接抑制语音信号中可能存在的残余噪声。其次,为了使分离出的信号与目标信号在时域和频域上都更加接近,本发明引入了加权时频联合约束,使所提出的网络能够学习有助于在两个维度上分离噪声混合语音的信息。最后,通过参数共享编码器将噪声语音信号转换为特征空间,减少模型参数的数量,提高训练速度。本发明实现了对语音分离系统性能的提升,使系统分离出的语音在各种测量指标上均有提升,适用于智能人机交互。
-
公开(公告)号:CN115862661A
公开(公告)日:2023-03-28
申请号:CN202211352869.3
申请日:2022-11-01
Applicant: 南京邮电大学
IPC: G10L21/0272 , G10L21/0308 , G10L25/30 , G10L25/24 , G10L25/03 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于双支路卷积神经网络融合模型的盲语音分离方法,包括获取盲语音信号和盲语音信号幅度谱,所述盲语音信号为双混合语音信号;预处理获取的盲语音信号,并根据双支路卷积神经网络融合模型提取盲语音信号的深度融合特征;根据盲语音信号的深度融合特征,利用分类器给盲语音信号打标;将盲语音信号幅度谱输入与打标标签匹配的语音分离模型,获得目标语音信号,完成盲语音分离。本发明能够分离双混合语音信号。
-
公开(公告)号:CN114203203B
公开(公告)日:2024-12-31
申请号:CN202110812035.5
申请日:2021-07-19
Applicant: 南京邮电大学
Abstract: 本发明揭示了一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,包括如下步骤:S1、提取傅里叶系数特征并输入深度神经网络,训练深度神经网络以提取瓶颈特征,得到深层瓶颈层特征及浅层瓶颈层特征;S2、对深层瓶颈层特征与浅层瓶颈层特征的寻优融合;S3、对融合后的深浅层瓶颈层特征进行特征筛选,降低特征维度,提取情感区分度高的特征;S4、构建组合分类器,提出多分类器联合判决算法,进行联合判决、得到最终判决结果。本发明提取了深层瓶颈层特征和浅层瓶颈层特征,并利用GA对这两种特征进行融合,弥补了单一的瓶颈层特征不能全面表达情感信息的缺陷,进一步提升了语音情感识别效果。
-
公开(公告)号:CN119207443A
公开(公告)日:2024-12-27
申请号:CN202411077151.7
申请日:2024-08-07
Applicant: 南京邮电大学
Abstract: 本发明提供了一种基于改进卷积循环网络的单通道语音增强方法,包括:步骤1:下载模型训练和测试所用的数据集,通过采用VoiceBank+DEMAND数据集对数据集的语音进行预处理,并通过短时傅里叶变换(STFT)提取语音信号的幅度谱;步骤2:将幅度谱输入到编码器中,从幅度谱中提取高维特征;步骤3:使用Channel‑S4D block作为模型的递归模块,Channel‑S4D block输出的结果会输入到解码器中,被恢复到原始的维度;步骤4:构造联合损失函数;步骤5:重建和评估增强语音信号。本发明基于对角化状态空间模型构造的Channel‑S4D模块高效地处理语音序列,捕捉通道级别的语音关键信息,更好地建模语音信号的时间依赖关系,在降低模型的参数量和计算量的同时,提高了模型对复杂噪声环境的适应性。
-
-
-
-
-
-
-
-
-