一种基于注意力转移的第一视角注视点预测方法

    公开(公告)号:CN116258768A

    公开(公告)日:2023-06-13

    申请号:CN202310056084.X

    申请日:2023-01-18

    Abstract: 本发明提供了一种基于注意力转移的第一视角注视点预测方法包括:提取光流图像;构建基于注意力转移的第一视角注视点预测模型;将所述光流图像输入所述第一视角注视点预测模型,获取空间特征和时间特征,基于所述空间特征和时间特征,获取初始视觉显著性图像和注意力图像,基于所述初始视觉显著性图像和注意力图像,融合生成最终的注视点预测图像。本发明对原图像在多尺度上进行了时空的特征提取,充分利用了时序信息和高层语义信息用于显著性检测,通过对注意力转移的建模,从先前的注视中预测后续的注意力,最后结合视觉显著性模型融合为最终注视点预测图,提高了注视点预测的准确度。

    一种基于多模态深度学习的第一人称视角注视点预测方法

    公开(公告)号:CN118821047A

    公开(公告)日:2024-10-22

    申请号:CN202410928015.8

    申请日:2024-07-11

    Abstract: 本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性,在全局和局部尺度上进行了多模态融合建模,结合多尺度编解码器设计,有效提高了第一人称视角注视点预测的准确性。

Patent Agency Ranking