一种自监督视觉语言导航预训练方法、装置及存储介质
摘要:
本发明公开了一种自监督视觉语言导航预训练方法、装置及存储介质,其中方法包括:获取房屋游览视频,对房屋游览视频进行过滤,获得有效帧;根据获得的有效帧,通过基于熵最小值理论的轨迹生成算法构建导航轨迹;根据获得的导航轨迹构建导航指令;根据导航轨迹和导航指令构建轨迹‑指令对,生成预训练数据集;根据获得的预训练数据集,使用轨迹判断任务对网络架构进行预训练。本发明首次采用房屋游览视频构建视觉语言导航预训练数据,自动化地生成导航轨迹和导航指令,构建轨迹‑指令对,有效地降低标注成本。另外,设计了针对布局推理能力学习的预训练任务,实现了视觉语言导航智能体对房屋布局知识的学习,可广泛应用于视觉语言导航技术领域。
0/0