-
公开(公告)号:CN114898769A
公开(公告)日:2022-08-12
申请号:CN202210532215.2
申请日:2022-05-09
Applicant: 南京邮电大学
IPC: G10L21/0272 , G10L21/0308 , G10L25/30
Abstract: 本发明公开了一种基于强约束字典和深度神经网络的两阶段单通道语音分离方法。首先,基于字典学习的语音分离方法常出现“交叉投影”问题,本发明提出了强约束的优化函数,在此函数约束下构建更具有区分性的联合字典,来减少“交叉投影”。其次,为了提高两个相似信号的分离效果,本发明提出两阶段单通道语音分离方法,第一阶段利用强约束字典实现语音分离,得到初步估计信号。第二阶段利用映射能力强的深度神经网络,通过联合约束实现语音与交叉投影残余的分离,去除交叉投影残余的影响,得到精细估计信号。本发明实现了对语音分离系统性能的提升,使系统分离出的语音在五种测量指标上均有提升,适用于智能人机交互。
-
公开(公告)号:CN117524243A
公开(公告)日:2024-02-06
申请号:CN202311016180.8
申请日:2023-08-14
Applicant: 南京邮电大学
IPC: G10L21/028 , G10L21/0308 , G10L21/0208 , G10L25/30
Abstract: 本发明公开了一种基于联合约束和共享编码器的噪声感知时域语音分离方法。首先,含噪情况下的语音分离会出现估计语音中残余噪声的问题,本发明提出将噪声作为与语音同等的估计目标,直接抑制语音信号中可能存在的残余噪声。其次,为了使分离出的信号与目标信号在时域和频域上都更加接近,本发明引入了加权时频联合约束,使所提出的网络能够学习有助于在两个维度上分离噪声混合语音的信息。最后,通过参数共享编码器将噪声语音信号转换为特征空间,减少模型参数的数量,提高训练速度。本发明实现了对语音分离系统性能的提升,使系统分离出的语音在各种测量指标上均有提升,适用于智能人机交互。
-
公开(公告)号:CN119170038A
公开(公告)日:2024-12-20
申请号:CN202410951123.7
申请日:2024-07-16
Applicant: 南京邮电大学
IPC: G10L21/0308 , G10L21/0264 , G10L25/30 , G06N3/0442 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于通道注意力机制和Transformer的端到端含噪语音分离方法,包括:构建了时序感知上下文通道注意力层,从特征的通道维度对其进行有效地过滤和筛选;同时,由于时序感知和上下文感知特性的存在,进一步提高了含噪下通道权重分配的合理性;其次,为了增强编码器输出的语音潜在特征的全局表达和建模能力,提出双向LSTM‑Transformer编码器层,其中带有双向LSTM的前馈层进一步丰富了多头注意力特征中的全局上下文信息,提升了编码器进行特征编码的有效性。本发明实现了在复杂噪声下语音分离系统性能的提升,并且在各种分离测试指标上均显示出提升,另外合理的特征筛选所带来的模型复杂度的降低和有效性的提升,使得本发明适合大多涉及人机交互的应用场景。
-
公开(公告)号:CN117219109A
公开(公告)日:2023-12-12
申请号:CN202311342274.4
申请日:2023-10-17
Applicant: 南京邮电大学
IPC: G10L21/0216 , G10L21/0264 , G10L25/30 , G10L25/03 , G06N3/0464 , G06N3/044 , G06N3/08
Abstract: 本发明公开一种基于结构化状态空间序列模型的双分支语音增强算法,包括:获取含噪语音的幅度谱和复数谱特征,并将其分别输入幅度粗略估计分支和复数细化估计分支,得到粗略估计的语音和细化之后的语音的实虚分量;引入交互模块实现幅度谱和复数谱特征在两分支之间的流动;将粗略估计的语音和细化之后的语音的实虚分量叠加,重建目标信号复数谱;对基于结构化状态空间序列模型的双分支增强算法进行性能评估。本发明同时估计幅度谱和复数谱并引入交互模块促进信息交流,使从一个分支学习到的特征能补充另一个分支缺失的信息;本发明使用一种对角化的状态空间模型对语音特征序列进行建模,既减少模型的参数量,又提升算法性能。
-
-
-