一种融合位置和音频通用表征的双耳音频生成方法及系统

    公开(公告)号:CN117789692A

    公开(公告)日:2024-03-29

    申请号:CN202410021101.0

    申请日:2024-01-08

    Applicant: 厦门大学

    Abstract: 本发明公开了一种融合位置和音频通用表征的双耳音频生成方法及系统,其特征在于,包括,S1,制作视频帧数据集和音频数据集;S2,对音频数据集进行短时傅里叶变换和计算,得到对应的复数谱图、幅度谱图和相位谱图;S3,将视频帧数据集、音频数据集及其对应的谱图输入包含相对位置信息提取器、音频通用表征提取器、掩膜生成模块的双耳音频还原模型中进行训练和优化;S4,基于训练好的所述双耳音频还原模型进行双耳音频还原。本发明提出的网络模型能够有效提取视频帧中声音源的相对位置信息,获得更有效的音频通用表征,用于引导双耳音频的生成,从而提升系统性能。

Patent Agency Ranking