基于CISF模型的跨库语音情感识别方法及装置

    公开(公告)号:CN115171662B

    公开(公告)日:2025-04-04

    申请号:CN202210748096.4

    申请日:2022-06-29

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于CISF模型的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库:(2)提取训练数据库和测试数据库中具有相同情感类别标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的IS09特征作为样本特征;(3)建立语料库无关显著性特征选择模型(4)对所述语料库无关显著性特征选择模型进行学习,得到投影矩阵U的最优值#imgabs0#(5)对于待识别语音,提取IS09特征,并采用学习到的#imgabs1#投影得到对应的情感类别。本发明识别准确率更高。

    基于置信度显著分析的多尺度目标检测方法及装置

    公开(公告)号:CN115019213B

    公开(公告)日:2024-12-20

    申请号:CN202210758801.9

    申请日:2022-06-30

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于置信度显著分析的多尺度目标检测方法及装置,方法包括:(1)获取基于航拍的遥感图像目标检测数据库;(2)将数据库中的遥感图像进行预处理;(3)建立深度卷积神经网络;(4)将预处理的图像及其对应标签作为样本输入卷积神经网络,进行训练,训练时采用的损失函数为位置回归损失、置信度交叉熵损失、分类交叉熵损失以及利用置信度计算的显著性损失之和;(5)将待识别的遥感图像预处理后,作为样本输入训练好的深度卷积神经网络,并进行非极大抑制,得到最终的目标检测结果。本发明准确率更高。

    一种基于可控情感强度的语音编辑方法及装置

    公开(公告)号:CN118942489A

    公开(公告)日:2024-11-12

    申请号:CN202411174686.6

    申请日:2024-08-26

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于可控情感强度的语音编辑方法及装置,涉及语音信号处理技术领域,包括:获取原始样本数据,其中,所述原始样本数据包括音频数据、文本数据和情感类别标签;将文本数据转换为音频序列,将音频数据转换为梅尔谱图;将梅尔谱图输入至情感强度感知神经网络模型的后验网络内,提取得到语调特征,其中,所述语调特征包括说话人基频信息以及效价、唤醒度和支配度的数值;将音频序列和效价、唤醒度和支配度的数值输入至情感强度感知神经网络模型的先验网络内,得到内容与节奏特征;将内容与节奏特征以及语调特征输入至预先建立的情感强度感知神经网络模型的解码器内,输出得到潜在中间特征,根据潜在中间特征生成情感音频数据。

    基于LIDAN的跨库语音情感识别方法及装置

    公开(公告)号:CN117352007A

    公开(公告)日:2024-01-05

    申请号:CN202311373024.7

    申请日:2023-10-23

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于LIDAN(层自适应隐式分布对齐神经网络)的跨库语音情感识别方法及装置,包括如下步骤:(1)获取训练数据库和测试数据库;(2)将训练数据库和测试数据库中的各语音样本分别转换为语谱图;(3)构建层自适应隐式分布对齐神经网络LIDAN,包括卷积神经网络、多层感知机、情感分类器、深度回归模块、层自适应隐式分布对齐模块和损失计算模块;(4)基于训练数据库和测试数据库的语音样本的语谱图,对LIDAN进行训练;(5)对于待识别的语音样本,将其转换为语谱图后输入LIDAN,得到预测的情感类别。本发明识别效果更好。

    基于光流注意力神经网络的跨库微表情识别方法及装置

    公开(公告)号:CN110516571B

    公开(公告)日:2022-02-11

    申请号:CN201910756936.X

    申请日:2019-08-16

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于光流注意力神经网络的跨库微表情识别方法及装置,方法包括:(1)获取两个不同的微表情数据库作为训练集和测试集;(2)将微表情视频转化为人脸图像序列;(3)从每一人脸图像序列中抽取起始帧、峰值帧和终止帧,由起始帧和峰值帧计算得到第一单通道光流图,由峰值帧和终止帧计算得到第二单通道光流图;(4)将每一人脸图像序列的第一单通道光流图、第二单通道光流图和峰值帧组成融合特征图;(5)建立光流注意力神经网络,并将训练集和测试集对应融合特征图作为输入进行训练;(6)将待识别的微表情视频处理得到融合特征图,输入光流注意力神经网络,得到微表情类别。本发明泛化能力强,识别准确率高。

    基于深度直推式迁移网络的跨库语音情感识别方法及装置

    公开(公告)号:CN114898777A

    公开(公告)日:2022-08-12

    申请号:CN202210513096.6

    申请日:2022-05-12

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于深度直推式迁移网络的跨库语音情感识别方法及装置,方法包括:(1)获取源语音情感数据库和目标语音情感数据库(2)将源数据库和目标数据库的情感音频处理成语谱图(3)建立深度回归神经网络(4)将源数据库和目标数据库的语谱图输入深度回归神经网络进行训练,将从网络得到的特征来计算源数据和目标数据的、不同尺度的最大均值差异,对神经网络进行微调(5)将待识别语音作为目标数据库中的语音数据,输入训练好的深度卷积神经网络,得到语音情感类型。本发明识别准确率更高。

    基于视频时域动态注意力模型的微表情识别方法及装置

    公开(公告)号:CN114550272A

    公开(公告)日:2022-05-27

    申请号:CN202210247495.2

    申请日:2022-03-14

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于视频时域动态注意力模型的微表情识别方法及装置,方法包括:(1)获取微表情数据库,所述微表情数据中包括若干微表情视频和对应的微表情类别标签;(2)构建微表情识别模型,所述微表情识别模型包括:光流特征提取模块、深度特征提取模块、加权深度特征提取模块、全连接层以及softmax层,用于根据加权视频级别深度特征识别出对应微表情视频所属类别;(3)将微表情数据库的每一微表情视频和对应标签作为一个样本,输入所述微表情识别模型,进行训练;(4)将待识别的微表情视频输入训练好的微表情识别模型,输出即为识别的微表情类别。本发明识别准确率更高。

    基于光流注意力神经网络的跨库微表情识别方法及装置

    公开(公告)号:CN110516571A

    公开(公告)日:2019-11-29

    申请号:CN201910756936.X

    申请日:2019-08-16

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于光流注意力神经网络的跨库微表情识别方法及装置,方法包括:(1)获取两个不同的微表情数据库作为训练集和测试集;(2)将微表情视频转化为人脸图像序列;(3)从每一人脸图像序列中抽取起始帧、峰值帧和终止帧,由起始帧和峰值帧计算得到第一单通道光流图,由峰值帧和终止帧计算得到第二单通道光流图;(4)将每一人脸图像序列的第一单通道光流图、第二单通道光流图和峰值帧组成融合特征图;(5)建立光流注意力神经网络,并将训练集和测试集对应融合特征图作为输入进行训练;(6)将待识别的微表情视频处理得到融合特征图,输入光流注意力神经网络,得到微表情类别。本发明泛化能力强,识别准确率高。

    一种基于深度域适应性卷积神经网络的跨库语音情感识别方法

    公开(公告)号:CN110390955A

    公开(公告)日:2019-10-29

    申请号:CN201910583878.5

    申请日:2019-07-01

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于深度域适应性卷积神经网络的跨库语音情感识别方法,包括:(1)获取语言不同的训练数据库和测试数据库(2)将训练数据库和测试数据库中的语音信号分别处理得到每段语音信号的频谱图;(3)建立卷积神经网络;(4)将训练数据库和测试数据库的语音信号频谱图分别输入卷积神经网络进行训练,训练时,先计算训练数据库和测试数据库语音信号频谱图分别对应的全连接层输出之间的最大均值差异,之后计算训练数据库softmax层输出以及其情感类别标签之间的交叉熵,最后将最大均值差异和交叉熵相加作为网络损失采用反向传播算法更新网络参数,完成网络训练;(5)获取待识别的语音信号频谱图,输入训练好的深度卷积神经网络,输出情感类别。本发明准确率更高。

    基于CDAR模型的跨库语音情感识别方法及装置

    公开(公告)号:CN115497508B

    公开(公告)日:2025-02-25

    申请号:CN202211010154.X

    申请日:2022-08-23

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于CDAR模型的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库,(2)从训练数据库和测试数据库中提取具有相同情感类别标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的IS09特征作为样本特征;(3)建立协同分布适配回归CDAR模型,(4)利用交替方向法和非精确增广拉格朗日乘子求解CDAR模型,得到投影矩阵U的最优值#imgabs0#(5)对于待识别语音,提取IS09特征,并采用学习到的#imgabs1#投影得到对应的情感类别。本发明识别准确率更高。

Patent Agency Ranking