- 专利标题: 一种自监督视觉语言导航预训练方法、装置及存储介质
-
申请号: CN202310425915.6申请日: 2023-04-20
-
公开(公告)号: CN116168333B公开(公告)日: 2023-08-22
- 发明人: 谭明奎 , 林坤阳 , 陈沛豪 , 黄狄伟 , 杜卿
- 申请人: 华南理工大学
- 申请人地址: 广东省广州市天河区五山路381号
- 专利权人: 华南理工大学
- 当前专利权人: 华南理工大学
- 当前专利权人地址: 广东省广州市天河区五山路381号
- 代理机构: 广州嘉权专利商标事务所有限公司
- 代理商 郑宏谋
- 主分类号: G06V20/40
- IPC分类号: G06V20/40 ; G06V10/774 ; G06V10/778 ; G06V10/82 ; G06V10/764 ; G06N3/045 ; G06N3/0464 ; G06N3/09
摘要:
本发明公开了一种自监督视觉语言导航预训练方法、装置及存储介质,其中方法包括:获取房屋游览视频,对房屋游览视频进行过滤,获得有效帧;根据获得的有效帧,通过基于熵最小值理论的轨迹生成算法构建导航轨迹;根据获得的导航轨迹构建导航指令;根据导航轨迹和导航指令构建轨迹‑指令对,生成预训练数据集;根据获得的预训练数据集,使用轨迹判断任务对网络架构进行预训练。本发明首次采用房屋游览视频构建视觉语言导航预训练数据,自动化地生成导航轨迹和导航指令,构建轨迹‑指令对,有效地降低标注成本。另外,设计了针对布局推理能力学习的预训练任务,实现了视觉语言导航智能体对房屋布局知识的学习,可广泛应用于视觉语言导航技术领域。
公开/授权文献
- CN116168333A 一种自监督视觉语言导航预训练方法、装置及存储介质 公开/授权日:2023-05-26