一种基于多头注意力机制和Bi-LSTM的复数去混响语音增强方法

    公开(公告)号:CN119107963A

    公开(公告)日:2024-12-10

    申请号:CN202410954745.5

    申请日:2024-07-17

    Abstract: 本发明公开了一种基于多头注意力机制和Bi‑LSTM的复数去混响语音增强方法,属于语音增强技术领域。本发明在复数域进行去混响处理,首先将信号进行STFT变换得到复数谱,以充分地利用幅度和相位信息。然后将复数谱特征送入高级通道注意力机制HCA以融合特征。其次,为了能够捕捉输入序列内部不同位置之间的相关性并利用时间和频率信息捕捉语音关键成分,设计了一种时频双路径复多头注意力机制TF‑CMHA,更准确地识别语音成分并抑制混响成分。最后,引入了复乘法运算和联合约束损失函数,模拟幅值和相位之间的相关关系,获得更为精确的长时语音相关性的描述。本发明实现了对去混响语音增强系统性能的提升,使系统去混响后的语音在各种测量指标上均有提升,适用于语音前端处理。

Patent Agency Ranking