-
公开(公告)号:CN119993176A
公开(公告)日:2025-05-13
申请号:CN202510369680.2
申请日:2025-03-27
Applicant: 东南大学
Abstract: 本发明公开了基于选择性状态空间模型Mamba的语音增强方法及系统,对失真语音进行短时傅立叶变换得到时频域信号,将时频域信号的幅值、实部和虚部拼接为3个通道的信号作为输入信号,输入信号经生成器网络编码器的第一个卷积块从3个通道扩展为多个通道,通过编码器的扩张密集卷积层提取不同分辨率特征并增加感受野,利用编码器最后一个卷积块将信号的频率维度降为原来的1/2以减少计算复杂度,经编码器扩展后的信号通过N个TF‑mamba块模拟不同分辨率下语音信号的前向和后向依赖关系以捕获长序列语音信号的局部和全局特征,实现特征增强,再分别通过复数解码器和掩码解码器预测增强信号幅值和相位得到去噪去混响后的增强语音。