一种基于协调简单注意力机制的两阶段语音分离方法

    公开(公告)号:CN117711421A

    公开(公告)日:2024-03-15

    申请号:CN202311339818.1

    申请日:2023-10-17

    Applicant: 安徽大学

    Abstract: 本发明公开一种基于协调简单注意力机制的两阶段语音分离方法,获取说话者的视频数据集以及对应音频数据集,构造混合音频以及音频频谱图;构建基于协调简单注意力机制的两阶段语音分离模型;两阶段语音分离模型语音分离的推理过程中,先将预测的掩模与输入的频谱图相乘来预测语音频谱图,然后使用逆短时傅里叶反变换将其转换为最终分离的语音信号。本发明第一阶段先粗分离,第二阶段精细分离来去除第一阶段分离后音频存在其他音频噪声问题;针对分离后的音频存在部分音频片段缺失问题,本发明使用恢复融合模块来恢复缺失的音频片段;本发明提出协调简单注意力机制可以使音频和对应视觉信息更好地相关关联,以实现更精确的分离结果。

Patent Agency Ranking