基于渐进式迁移神经网络的跨库语音情感识别方法及装置

    公开(公告)号:CN115497507A

    公开(公告)日:2022-12-20

    申请号:CN202210956627.9

    申请日:2022-08-10

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于渐进式迁移神经网络的跨库语音情感识别方法及装置,方法包括:获取源域和目标域的若干语音信号;获取语音信号的频谱特征;建立渐进式迁移神经网络,包括深度特征提取器、情感判别器和损失计算模块,深度特征提取器用于提取低、中、高三层高维情感特征;情感判别器用于基于源域的高层高维情感特征进行情感分类;损失计算模块包括第一情感判别性保持损失计算单元、第二情感判别性保持损失计算单元、联合特征分布对齐损失计算单元、分类交叉熵损失计算单元和总损失计算单元;对神经网络进行网络训练;将情感语音样本输入神经网络,识别出情感类别。本发明可消除源域和目标域特征分布差异,识别效果更好,识别率更高。

    基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置

    公开(公告)号:CN111583966B

    公开(公告)日:2022-06-28

    申请号:CN202010372728.2

    申请日:2020-05-06

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置,方法包括:(1)获取训练数据库和测试数据库,其中,训练语音数据库中包含有若干语音片段和对应的语音情感类别标签,测试数据库中仅包含有若干待识别语音片段;(2)利用若干声学低维描述子对语音片段进行处理并进行统计,将统计得到的每个信息作为一个情感特征,并将多个情感特征组成向量作为对应语音片段的特征向量;(3)建立基于联合分布的最小二乘回归模型,利用训练数据库与测试数据库联合训练,得到稀疏投影矩阵;(4)对于待识别语音片段,按照步骤(2)得到特征向量,并采用学习到的稀疏投影矩阵,得到对应的语音情感类别标签。本发明可以适应不同环境,准确率更高。

    基于PDAN的跨库语音情感识别方法及装置

    公开(公告)号:CN115512721A

    公开(公告)日:2022-12-23

    申请号:CN202211010176.6

    申请日:2022-08-23

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于渐进式分布适配神经网络(Progressive Distribution Adapted Neural Networks,PDAN)的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提样本的语谱图特征;(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异;(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;(5)提取待识别语音语谱图特征,输入训练好的模型,识别出情感类别。本发明识别准确率更高。

    基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置

    公开(公告)号:CN111583966A

    公开(公告)日:2020-08-25

    申请号:CN202010372728.2

    申请日:2020-05-06

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置,方法包括:(1)获取训练数据库和测试数据库,其中,训练语音数据库中包含有若干语音片段和对应的语音情感类别标签,测试数据库中仅包含有若干待识别语音片段;(2)利用若干声学低维描述子对语音片段进行处理并进行统计,将统计得到的每个信息作为一个情感特征,并将多个情感特征组成向量作为对应语音片段的特征向量;(3)建立基于联合分布的最小二乘回归模型,利用训练数据库与测试数据库联合训练,得到稀疏投影矩阵;(4)对于待识别语音片段,按照步骤(2)得到特征向量,并采用学习到的稀疏投影矩阵,得到对应的语音情感类别标签。本发明可以适应不同环境,准确率更高。

Patent Agency Ranking