-
公开(公告)号:CN119170038A
公开(公告)日:2024-12-20
申请号:CN202410951123.7
申请日:2024-07-16
Applicant: 南京邮电大学
IPC: G10L21/0308 , G10L21/0264 , G10L25/30 , G06N3/0442 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于通道注意力机制和Transformer的端到端含噪语音分离方法,包括:构建了时序感知上下文通道注意力层,从特征的通道维度对其进行有效地过滤和筛选;同时,由于时序感知和上下文感知特性的存在,进一步提高了含噪下通道权重分配的合理性;其次,为了增强编码器输出的语音潜在特征的全局表达和建模能力,提出双向LSTM‑Transformer编码器层,其中带有双向LSTM的前馈层进一步丰富了多头注意力特征中的全局上下文信息,提升了编码器进行特征编码的有效性。本发明实现了在复杂噪声下语音分离系统性能的提升,并且在各种分离测试指标上均显示出提升,另外合理的特征筛选所带来的模型复杂度的降低和有效性的提升,使得本发明适合大多涉及人机交互的应用场景。