-
公开(公告)号:CN114141266B
公开(公告)日:2025-05-06
申请号:CN202111516319.6
申请日:2021-12-08
Applicant: 南京大学
IPC: G10L21/0216
Abstract: 本发明公开了一种基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,具体步骤如下:(1)使用清晰语音和噪声数据集生成模拟含噪语音,并做短时傅里叶变换得到短时傅里叶谱;(2)用清晰语音和含噪语音的短时傅里叶谱训练Deep Xi‑TCN网络;(3)用理想的映射信噪比通过K‑means聚类生成有限个聚类中心,作为先验信噪比模板;(4)正式训练阶段,通过DQN网络在帧层面挑选Deep Xi‑TCN推断的信噪比或者先验信噪比模板,计算出与PESQ值相关的奖励,进行强化学习迭代,更新网络参数;(5)将含噪语音短时傅里叶谱输入完成训练的模型,得到的增强语音的短时傅里叶谱,再进行逆短时傅里叶变换。本发明能进一步优化Deep Xi‑TCN推断的先验信噪比,从而提高与听感相关的语音质量。
-
公开(公告)号:CN113707136B
公开(公告)日:2021-12-31
申请号:CN202111258776.X
申请日:2021-10-28
Applicant: 南京南大电子智慧型服务机器人研究院有限公司 , 南京大学 , 江苏南大电子信息技术股份有限公司
Abstract: 本发明公开了一种服务型机器人语音交互的音视频混合语音前端处理方法,具体步骤如下:(1)通过视频处理手段捕获期望说话人嘴部动作信息;(2)根据期望说话人嘴部动作信息获得准确的语音激活检测结果;(3)根据语音活动检测结果,优化机器人传声器阵列的波束算法;(4)通过阵列传声器实现语音增强,抑制环境噪声,提升机器人采集语音的信噪比。本发明在机器人所处复杂声场环境中可以有效提升机器人采集语音的信号质量。
-
公开(公告)号:CN113707136A
公开(公告)日:2021-11-26
申请号:CN202111258776.X
申请日:2021-10-28
Applicant: 南京南大电子智慧型服务机器人研究院有限公司 , 南京大学 , 江苏南大电子信息技术股份有限公司
Abstract: 本发明公开了一种服务型机器人语音交互的音视频混合语音前端处理方法,具体步骤如下:(1)通过视频处理手段捕获期望说话人嘴部动作信息;(2)根据期望说话人嘴部动作信息获得准确的语音激活检测结果;(3)根据语音活动检测结果,优化机器人传声器阵列的波束算法;(4)通过阵列传声器实现语音增强,抑制环境噪声,提升机器人采集语音的信噪比。本发明在机器人所处复杂声场环境中可以有效提升机器人采集语音的信号质量。
-
公开(公告)号:CN114141266A
公开(公告)日:2022-03-04
申请号:CN202111516319.6
申请日:2021-12-08
Applicant: 南京大学
IPC: G10L21/0216
Abstract: 本发明公开了一种基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,具体步骤如下:(1)使用清晰语音和噪声数据集生成模拟含噪语音,并做短时傅里叶变换得到短时傅里叶谱;(2)用清晰语音和含噪语音的短时傅里叶谱训练Deep Xi‑TCN网络;(3)用理想的映射信噪比通过K‑means聚类生成有限个聚类中心,作为先验信噪比模板;(4)正式训练阶段,通过DQN网络在帧层面挑选Deep Xi‑TCN推断的信噪比或者先验信噪比模板,计算出与PESQ值相关的奖励,进行强化学习迭代,更新网络参数;(5)将含噪语音短时傅里叶谱输入完成训练的模型,得到的增强语音的短时傅里叶谱,再进行逆短时傅里叶变换。本发明能进一步优化Deep Xi‑TCN推断的先验信噪比,从而提高与听感相关的语音质量。
-
-
-