-
公开(公告)号:CN115517680A
公开(公告)日:2022-12-27
申请号:CN202211222664.3
申请日:2022-10-08
Applicant: 南京邮电大学
IPC: A61B5/16 , A61B5/369 , G06N3/04 , G06N3/08 , G06V10/774 , G06V10/80 , G06V10/82 , G06V40/16 , G06V40/70
Abstract: 本发明公开了一种基于多阶段注意力网络架构NMSNet的多模态情感识别方法和实施该方法的系统。该识别方法包括以下步骤:步骤一、对各个单模态特征进行简单的特征提取后,送入NAM残差模块;步骤二、对单模态特征进行特征选择之后,送入多头注意力网络进行特征融合;以及步骤三、融合之后的特征送入分段小波注意力模块进行滤波。本发明提出了一种新的多阶段注意力网络架构NMSNet,来学习多模态情感特征融合,通过上述步骤,最大程度上实现了注意力权重分配,使得模型专注于对情感识别更为重要的部分,同时构建了新的多阶段注意力网络架构NMSNet。
-
公开(公告)号:CN115881088A
公开(公告)日:2023-03-31
申请号:CN202211423682.8
申请日:2022-11-15
Applicant: 南京邮电大学
IPC: G10L13/033 , G10L13/02 , G10L15/02 , G10L15/06 , G10L25/03
Abstract: 本发明属于语音转换技术领域,具体地说,是一种基于CBAM和动态卷积分解的歌唱语音转换方法,包括训练阶段和转换阶段,模型网络包括生成器、鉴别器和风格编码器。首先在生成器中引入动态卷积分解,通过动态通道融合来代替通道组的动态关注,解决生成器中动态卷积会导致卷积权重的数量增加K倍的问题,减轻了联合优化的难度,并且使得模型在不牺牲精度的情况下,需要的参数更少,提高算法的运行性能。进一步在生成器的编码网络和解码网络引入CBAM注意力模块,在通道和空间施加注意力,提升对频谱中细节信息的关注与捕获,显著改善转换歌唱语音的质量。
-