一种多模态三维说话人追踪方法及装置

    公开(公告)号:CN118115541A

    公开(公告)日:2024-05-31

    申请号:CN202410360420.4

    申请日:2024-03-27

    Abstract: 本发明涉及人机交互技术领域,特别是指一种多模态三维说话人追踪方法及装置,方法包括:利用麦克风阵列捕获的多通道音频信号和单目摄像机获取的视频流作为输入,通过音频和视频信息的互补融合提高定位性能,并建立广义标签多伯努利框架实现平滑跟踪。本发明使用麦克风阵列采集的多通道音频信号和视频流进行说话人跟踪,对视频估计的说话人位置进行精确修正,解决了逆境条件下确定说话人真实位置的困难。创造性地提出了基于广义标签多伯努利滤波器的说话人跟踪方法,为广义标签多伯努利滤波器提供了新的视频辅助多通道音频线性搜索功能,有效处理位置估计中的异常值,并在漏检期间保持跟踪。

Patent Agency Ranking