一种自监督视觉语言导航预训练方法、装置及存储介质

发明授权

CN116168333B 一种自监督视觉语言导航预训练方法、装置及存储介质有权

请登陆查看更多内容

专利标题： 一种自监督视觉语言导航预训练方法、装置及存储介质
申请号： CN202310425915.6

申请日： 2023-04-20
公开(公告)号： CN116168333B

公开(公告)日： 2023-08-22
发明人: 谭明奎 , 林坤阳 , 陈沛豪 , 黄狄伟 , 杜卿
申请人： 华南理工大学
申请人地址： 广东省广州市天河区五山路381号
专利权人： 华南理工大学
当前专利权人： 华南理工大学
当前专利权人地址： 广东省广州市天河区五山路381号
代理机构： 广州嘉权专利商标事务所有限公司
代理商 郑宏谋
主分类号： G06V20/40
IPC分类号： G06V20/40 ; G06V10/774 ; G06V10/778 ; G06V10/82 ; G06V10/764 ; G06N3/045 ; G06N3/0464 ; G06N3/09

摘要：

本发明公开了一种自监督视觉语言导航预训练方法、装置及存储介质，其中方法包括：获取房屋游览视频，对房屋游览视频进行过滤，获得有效帧；根据获得的有效帧，通过基于熵最小值理论的轨迹生成算法构建导航轨迹；根据获得的导航轨迹构建导航指令；根据导航轨迹和导航指令构建轨迹‑指令对，生成预训练数据集；根据获得的预训练数据集，使用轨迹判断任务对网络架构进行预训练。本发明首次采用房屋游览视频构建视觉语言导航预训练数据，自动化地生成导航轨迹和导航指令，构建轨迹‑指令对，有效地降低标注成本。另外，设计了针对布局推理能力学习的预训练任务，实现了视觉语言导航智能体对房屋布局知识的学习，可广泛应用于视觉语言导航技术领域。

公开/授权文献

CN116168333A 一种自监督视觉语言导航预训练方法、装置及存储介质公开/授权日：2023-05-26

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）