-
公开(公告)号:CN119128577A
公开(公告)日:2024-12-13
申请号:CN202411050319.5
申请日:2024-08-01
Applicant: 南京邮电大学
IPC: G06F18/24 , G06F18/213 , G06F18/25 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于三模态Mamba交互和级联分层融合的多模态情感识别方法,步骤包括:首先,对语音、文本和视频进行编码提取深度特征,通过本发明提出的基于三模态Mamba交互模块捕获不同模态信息长距离的依赖关系,并利用不同模态信息间互补性得到多模态特征的增强表示;然后利用提出的级联分层融合机制来动态整合不同阶段的语义特征,获得语义丰富的多模态情感表示;最后,进行了消融实验,验证了该方法的有效性。本发明实现了对多模态情感识别的有效并行计算,提高了多模态情感识别系统的识别性能和泛化能力。
-
公开(公告)号:CN114898776A
公开(公告)日:2022-08-12
申请号:CN202210497889.3
申请日:2022-05-09
Applicant: 南京邮电大学
Abstract: 本发明公开了一种多尺度特征联合多任务CNN决策树的语音情感识别方法,首先采集每条语音在帧长为256、400和512时的MFCC参数、能量参数、基因频率参数和短时过零率参数的统计特征,将三个尺度下的统计特征进行融合,用于输入多任务1DCNN模型;然后引入性别识别辅助任务,在1DCNN中同时进行语音情感和性别识别任务;再构造多任务1DCNN决策树模型,实现由粗到细地进行情感划分;最后对多任务CNN决策树的语音情感识别方法进行性能评估;本发明进一步挖掘了语音信号的多尺度情感特征并引入多任务的1DCNN决策树进行语音情感识别,使得系统的情感识别性能、泛化能力进一步提升,可以很好地应用于智能人机交互中。
-
公开(公告)号:CN109036465A
公开(公告)日:2018-12-18
申请号:CN201810685220.0
申请日:2018-06-28
Applicant: 南京邮电大学
CPC classification number: G10L25/63 , G06N3/0454 , G06N3/08 , G10L25/30
Abstract: 本发明揭示了一种语音情感识别方法,包括如下步骤:S1、将实验所用的语音数据转换成语谱图;S2、对所得到的语谱图进行数据扩增处理;S3、由传统卷积神经网络构建出融合深浅层特征的卷积神经网络;S4、分别采用传统的卷积神经网络以及融合深浅层特征的卷积神经网络进行语音情感识别实验,比较二者的语音情感识别率。本发明可以充分提取语谱图特征,从而提高语音情感识别率,相对于传统的卷积神经网络,本发明中所提出的深浅层特征融合的卷积神经网络可以通过将浅层特征进行降维,充分地与深层特征进行融合,从而得到更能代表各类情感的特征。本发明不仅可以有效地提高语音情感识别率、确保识别的准确性,而且具有更为优异的泛化能力。
-
公开(公告)号:CN103745727A
公开(公告)日:2014-04-23
申请号:CN201310728990.6
申请日:2013-12-25
Applicant: 南京邮电大学
IPC: G10L19/08 , G10L21/0308
Abstract: 本发明提出了一种含噪声语音信号压缩感知方法,所述方法包含训练和实测两个阶段,训练阶段针对语音信号,进行压缩采样重构训练,得到含噪语音信号的拉格朗日乘子形式重构算法中的最佳调整参数;实测阶段在发端对含噪声语音信号压缩采样,得到观测序列;在接收端对观测序列进行激活检测,判断出有声帧和无声帧,并估计信噪比,选取重构算法中的最佳调整参数,重构稀疏系数,后置去噪后再重构语音信号。本发明方法减少了实测阶段重构语音信号的计算量,部分抵消了压缩重构噪声和信号噪声,重构的语音更逼近无噪声语音。
-
公开(公告)号:CN102780698A
公开(公告)日:2012-11-14
申请号:CN201210256498.9
申请日:2012-07-24
Applicant: 南京邮电大学
IPC: H04L29/06
Abstract: 本发明涉及一种物联网平台中用户终端安全通信的方法,特别是用于物联网平台中多元异构的用户终端与平台服务器之间安全通信的实现方案,主要是利用抽象语法标记语言ASN.1结合安全的加解密及认证的算法,建立了一个安全的物联网通信体系模型,不仅为物联网中不同编程语言、不同操作系统以及不同种类的计算机及硬件环境之间的认证互连互通,提供一种标准的数据包的结构,使得认证及交互双方能够识别。同时,引进了一种更为高效的安全机制,使物联网中不同实体安全快速可靠地通信,其数据传输过程中资源开销和时延都得到了显著的改善。
-
公开(公告)号:CN117912482A
公开(公告)日:2024-04-19
申请号:CN202311641887.8
申请日:2023-12-01
Applicant: 南京邮电大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明公开了一种基于全卷积神经网络多任务学习的时域语音分离方法,该方法在语音分离支路构建全卷积神经网络,网络的输入和目标分别采用时域混合语音和纯净语音,运用卷积编码器和反卷积解码器完成端到端的语音分离。另外,将混合语音性别组合检测任务整合到语音分离网络中,在两个任务联合约束下获取辅助信息特征和语音分离特征,并将这些深度特征相结合来提升语音分离质量。该时域语音分离方法不仅不需要进行相位恢复和频域到时域的重构,而且可以从混合语音性别组合检测任务中提取有效的辅助信息特征,实现更有效的语音分离。最后对所提出的方法进行性能评估,实验表明,相比单任务的语音分离方法,本发明方法性能更佳。
-
公开(公告)号:CN117524243A
公开(公告)日:2024-02-06
申请号:CN202311016180.8
申请日:2023-08-14
Applicant: 南京邮电大学
IPC: G10L21/028 , G10L21/0308 , G10L21/0208 , G10L25/30
Abstract: 本发明公开了一种基于联合约束和共享编码器的噪声感知时域语音分离方法。首先,含噪情况下的语音分离会出现估计语音中残余噪声的问题,本发明提出将噪声作为与语音同等的估计目标,直接抑制语音信号中可能存在的残余噪声。其次,为了使分离出的信号与目标信号在时域和频域上都更加接近,本发明引入了加权时频联合约束,使所提出的网络能够学习有助于在两个维度上分离噪声混合语音的信息。最后,通过参数共享编码器将噪声语音信号转换为特征空间,减少模型参数的数量,提高训练速度。本发明实现了对语音分离系统性能的提升,使系统分离出的语音在各种测量指标上均有提升,适用于智能人机交互。
-
公开(公告)号:CN113571095B
公开(公告)日:2023-06-20
申请号:CN202110670269.0
申请日:2021-06-17
Applicant: 南京邮电大学
IPC: G10L25/63 , G10L25/30 , G10L25/24 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于嵌套深度神经网络的语音情感识别方法和系统,方法包括:构建MFCC数据集;基于深度神经网络构建语音情感识别模型,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率;结合不同参数组及其对应的识别率,生成识别率数据集;基于深度神经网络构建参数拟合模型,用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组;将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型。本发明通过利用嵌套式的深度神经网络不断优化输入神经网络的参数,大幅提高了语音情感的识别率。
-
公开(公告)号:CN115862661A
公开(公告)日:2023-03-28
申请号:CN202211352869.3
申请日:2022-11-01
Applicant: 南京邮电大学
IPC: G10L21/0272 , G10L21/0308 , G10L25/30 , G10L25/24 , G10L25/03 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于双支路卷积神经网络融合模型的盲语音分离方法,包括获取盲语音信号和盲语音信号幅度谱,所述盲语音信号为双混合语音信号;预处理获取的盲语音信号,并根据双支路卷积神经网络融合模型提取盲语音信号的深度融合特征;根据盲语音信号的深度融合特征,利用分类器给盲语音信号打标;将盲语音信号幅度谱输入与打标标签匹配的语音分离模型,获得目标语音信号,完成盲语音分离。本发明能够分离双混合语音信号。
-
公开(公告)号:CN115050395A
公开(公告)日:2022-09-13
申请号:CN202210494189.9
申请日:2022-05-07
Applicant: 南京邮电大学
Abstract: 本发明提出了一种基于多领域统计特征和改进CNN的含噪语音情感识别方法,属于语音识别领域,包括以下步骤:步骤1:首先对语料库中的纯净语音进行加噪处理,其次提取语音信号的相关多领域特征,采用统计函数对已提取的特征进行筛选,降低特征冗余度,得到冗余度低、情感区分度高的多领域统计特征;步骤2:搭建基于语音增强联合约束CNN‑DNN的框架;步骤3:将多领域统计特征作为系统模型的输入,提取与情感分类标签高度相关且对噪声具有鲁棒性的信息,得到输出层的情感分类结果;步骤4:对所提出的一种基于多领域统计特征和语音增强联合约束CNN‑DNN的噪声环境下语音情感识别方法进行性能评估。
-
-
-
-
-
-
-
-
-