-
公开(公告)号:CN113516990B
公开(公告)日:2024-08-13
申请号:CN202010281044.1
申请日:2020-04-10
Applicant: 华为技术有限公司
IPC: G10L21/02 , G10L21/0208 , G10L25/30 , G06N3/084 , G06N3/0464
Abstract: 本申请公开了一种语音增强方法,涉及人工智能领域,包括:获取待增强语音和参考图像,待增强语音和参考图像为同时获取的数据。根据第一神经网络输出待增强语音的第一增强信号。根据第二神经网络输出参考图像的掩蔽函数,掩蔽函数指示参考图像对应的频段能量是否小于预设值,频段能量小于预设值表示参考图像对应的待增强语音的频段为噪声。根据第一增强信号和掩蔽函数的运算结果确定待增强语音的第二增强信号。通过本申请提供的技术方案,可以将图像信息应用于语音增强的过程中,在一些相对嘈杂的环境中,也可以很好的提升语音增强的能力,提升听感。
-
公开(公告)号:CN113516990A
公开(公告)日:2021-10-19
申请号:CN202010281044.1
申请日:2020-04-10
Applicant: 华为技术有限公司
IPC: G10L21/02 , G10L21/0208 , G10L25/30 , G06N3/08 , G06N3/04
Abstract: 本申请公开了一种语音增强方法,涉及人工智能领域,包括:获取待增强语音和参考图像,待增强语音和参考图像为同时获取的数据。根据第一神经网络输出待增强语音的第一增强信号。根据第二神经网络输出参考图像的掩蔽函数,掩蔽函数指示参考图像对应的频段能量是否小于预设值,频段能量小于预设值表示参考图像对应的待增强语音的频段为噪声。根据第一增强信号和掩蔽函数的运算结果确定待增强语音的第二增强信号。通过本申请提供的技术方案,可以将图像信息应用于语音增强的过程中,在一些相对嘈杂的环境中,也可以很好的提升语音增强的能力,提升听感。
-