一种跨模态音视频融合语音分离方法

    公开(公告)号:CN116417008A

    公开(公告)日:2023-07-11

    申请号:CN202310403921.1

    申请日:2023-04-14

    Abstract: 本发明充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠密光流(Farneback)算法和U‑Net网络,提出跨模态融合的光流‑音视频语音分离(Flow‑AVSS)模型。该模型通过Farneback算法和轻量级网络ShuffleNet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块(TCN)得到视觉特征,为充分利用到视觉信息,在进行特征融合时采用多头注意力机制,将视觉特征与音频特征进行跨模态融合,得到融合音视频特征,最后融合音视频特征经过U‑Net分离网络得到分离语音。利用PESQ、STOI及SDR评价指标,在AVspeech数据集进行实验测试。本方法与纯语音分离网络和仅采用特征拼接的音视频分离网络相比,性能上分别提高了2.23dB和1.68dB。由此表明,采用跨模态注意力进行特征融合,能更加充分利用各个模态相关性,增加的唇部运动特征,能有效提高视频特征的鲁棒性,提高分离效果。

    一种视听跨模态融合语音分离方法

    公开(公告)号:CN116469404A

    公开(公告)日:2023-07-21

    申请号:CN202310430709.4

    申请日:2023-04-20

    Abstract: 目前的视听语音分离模型基本是将视频和音频特征进行简单拼接,视觉信息未被充分利用,分离效果不理想。本发明充分考虑视觉和音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(ConvolutionalTime‑domainAudioSeparationnetwork,Conv‑TasNet)和双路径递归神经网络(Dual‑PathRecurrentNeuralNetwork,DPRNN),提出时域视听跨模态融合语音分离(Conv‑AudiovisualSpeechSeparation,Conv‑AVSS)模型。该模型通过音频编码器与视觉编码器获得音频特征与唇部特征,采用多头注意力机制将视听特征进行跨模态融合,并将其通过DPRNN分离网络,获得不同说话者的分离语音。利用PESQ、STOI及SDR评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离二、三或四位说话者的混合语音时,本方法与传统分离网络相比,SDR提高量均在1.87dB以上,最高可达2.29dB。这表明了本方法的有效性。

Patent Agency Ranking