-
公开(公告)号:CN118053443A
公开(公告)日:2024-05-17
申请号:CN202410043472.9
申请日:2024-01-11
Applicant: 北京科技大学
IPC: G10L21/0308 , G10L19/02 , G10L19/022 , G10L19/26 , G10L25/18 , G10L25/24 , G10L25/30
Abstract: 本发明提供一种具有选择性听觉的目标说话人追踪方法及系统,涉及语音识别技术领域。所述方法包括:利用一对麦克风捕获包含目标说话人和干扰说话人的混合音频,并给定目标说话人预注册的参考音频;对混合音频和参考音频分别进行短时傅里叶变换,得到混合频谱图和参考频谱图;将混合频谱图和参考频谱图输入预训练的声音滤波器中,生成针对目标说话人的掩码;将掩码与混合频谱图相乘,生成被掩码的频谱图;将被掩码的频谱图输入至预设计的LSTM网络模块进行方位角估算,得到估算的目标说话人的方位角。本发明能够只关注目标说话人的语音内容,忽视其他背景干扰声,从而实现更精确和可靠的目标说话人追踪。
-
公开(公告)号:CN117288294B
公开(公告)日:2024-06-04
申请号:CN202311459279.5
申请日:2023-11-03
Applicant: 北京科技大学
IPC: G01F23/22 , G01F23/80 , G06V20/40 , G06N3/0442 , G06N3/08 , G06V10/774 , G06V10/82 , G10L25/30 , G10L25/51
Abstract: 本发明公开了一种基于听觉与触觉的水杯水位检测方法及装置,涉及检测水位技术领域。包括:将听觉数据输入到构建好的听觉特征提取模型进行特征提取得到听觉信息;将触觉数据输入到构建好的触觉特征提取模型进行特征提取得到触觉信息;对听觉信息以及触觉信息进行拼接得到多模态特征;根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。本发明引入触觉传感器,通过容器所含液体的增加使触觉传感器变形程度增加判断液体所含多少,结合倒水时的音频,采用神经网络预测液体含量具体的百分比,通过多模态的数据更细致地确定液体含量,提高预测的准确性及在各个环境中的普适性。
-
公开(公告)号:CN117288294A
公开(公告)日:2023-12-26
申请号:CN202311459279.5
申请日:2023-11-03
Applicant: 北京科技大学
IPC: G01F23/22 , G01F23/80 , G06V20/40 , G06N3/0442 , G06N3/08 , G06V10/774 , G06V10/82 , G10L25/30 , G10L25/51
Abstract: 本发明公开了一种基于听觉与触觉的水杯水位检测方法及装置,涉及检测水位技术领域。包括:将听觉数据输入到构建好的听觉特征提取模型进行特征提取得到听觉信息;将触觉数据输入到构建好的触觉特征提取模型进行特征提取得到触觉信息;对听觉信息以及触觉信息进行拼接得到多模态特征;根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。本发明引入触觉传感器,通过容器所含液体的增加使触觉传感器变形程度增加判断液体所含多少,结合倒水时的音频,采用神经网络预测液体含量具体的百分比,通过多模态的数据更细致地确定液体含量,提高预测的准确性及在各个环境中的普适性。
-
-