一种具有选择性听觉的目标说话人追踪方法及系统

    公开(公告)号:CN118053443A

    公开(公告)日:2024-05-17

    申请号:CN202410043472.9

    申请日:2024-01-11

    Abstract: 本发明提供一种具有选择性听觉的目标说话人追踪方法及系统,涉及语音识别技术领域。所述方法包括:利用一对麦克风捕获包含目标说话人和干扰说话人的混合音频,并给定目标说话人预注册的参考音频;对混合音频和参考音频分别进行短时傅里叶变换,得到混合频谱图和参考频谱图;将混合频谱图和参考频谱图输入预训练的声音滤波器中,生成针对目标说话人的掩码;将掩码与混合频谱图相乘,生成被掩码的频谱图;将被掩码的频谱图输入至预设计的LSTM网络模块进行方位角估算,得到估算的目标说话人的方位角。本发明能够只关注目标说话人的语音内容,忽视其他背景干扰声,从而实现更精确和可靠的目标说话人追踪。

Patent Agency Ranking