一种自监督视觉语言导航预训练方法、装置及存储介质

    公开(公告)号:CN116168333B

    公开(公告)日:2023-08-22

    申请号:CN202310425915.6

    申请日:2023-04-20

    Abstract: 本发明公开了一种自监督视觉语言导航预训练方法、装置及存储介质,其中方法包括:获取房屋游览视频,对房屋游览视频进行过滤,获得有效帧;根据获得的有效帧,通过基于熵最小值理论的轨迹生成算法构建导航轨迹;根据获得的导航轨迹构建导航指令;根据导航轨迹和导航指令构建轨迹‑指令对,生成预训练数据集;根据获得的预训练数据集,使用轨迹判断任务对网络架构进行预训练。本发明首次采用房屋游览视频构建视觉语言导航预训练数据,自动化地生成导航轨迹和导航指令,构建轨迹‑指令对,有效地降低标注成本。另外,设计了针对布局推理能力学习的预训练任务,实现了视觉语言导航智能体对房屋布局知识的学习,可广泛应用于视觉语言导航技术领域。

    一种自监督视觉语言导航预训练方法、装置及存储介质

    公开(公告)号:CN116168333A

    公开(公告)日:2023-05-26

    申请号:CN202310425915.6

    申请日:2023-04-20

    Abstract: 本发明公开了一种自监督视觉语言导航预训练方法、装置及存储介质,其中方法包括:获取房屋游览视频,对房屋游览视频进行过滤,获得有效帧;根据获得的有效帧,通过基于熵最小值理论的轨迹生成算法构建导航轨迹;根据获得的导航轨迹构建导航指令;根据导航轨迹和导航指令构建轨迹‑指令对,生成预训练数据集;根据获得的预训练数据集,使用轨迹判断任务对网络架构进行预训练。本发明首次采用房屋游览视频构建视觉语言导航预训练数据,自动化地生成导航轨迹和导航指令,构建轨迹‑指令对,有效地降低标注成本。另外,设计了针对布局推理能力学习的预训练任务,实现了视觉语言导航智能体对房屋布局知识的学习,可广泛应用于视觉语言导航技术领域。

    基于地图引导的场景感知少样本声学建模方法、装置、设备及介质

    公开(公告)号:CN119942543A

    公开(公告)日:2025-05-06

    申请号:CN202411814239.2

    申请日:2024-12-11

    Abstract: 本发明公开了一种基于地图引导的场景感知少样本声学建模方法、装置、设备及介质,其中方法包括:获取图像数据,根据图像数据提取视觉特征,从视觉特征中提取场景语义特征;根据提取的场景语义特征,将不同姿态获取到的场景特征对齐融合,获得场景特征地图;获取查询坐标,根据查询坐标和场景特征地图获取查询特征,根据查询特征获得目标RIR。本发明提出了地图引导的场景感知方案,通过提取不同视觉观测中声学相关的语义特征,并借助深度映射进行特征对齐融合,获得整个场景的特征信息,增强模型对房屋结构、房屋布局、物体语义等空间信息的理解。本发明可广泛应用于AR、VR等虚拟建模领域。

    基于多尺度细粒度特征融合的图片导航方法、装置及介质

    公开(公告)号:CN116608866A

    公开(公告)日:2023-08-18

    申请号:CN202310890318.0

    申请日:2023-07-20

    Abstract: 本发明公开了一种基于多尺度细粒度特征融合的图片导航方法、装置及介质,属于智能导航技术领域。其中方法包括:获取导航目标位置的目标图像;获取智能体在环境中当前时刻的视觉观测;将目标图像和视觉观测输入多尺度细粒度特征融合模块进行多尺度细粒度特征融合,输出融合后的视觉状态特征;根据视觉状态特征预测智能体下一时刻的状态,以使智能体根据状态执行动作,直到到达导航目标位置。本发明利用深度神经网络中隐藏层高分辨率激活图中所包含的物体细粒度特征,将特征作为提示引导视觉观测模型关注当前环境中与目标图像在低级属性和高级语言上具有相关性的区域,从而改善智能体在探索阶段推理和寻找目标位置的能力。

    基于多尺度细粒度特征融合的图片导航方法、装置及介质

    公开(公告)号:CN116608866B

    公开(公告)日:2023-09-26

    申请号:CN202310890318.0

    申请日:2023-07-20

    Abstract: 本发明公开了一种基于多尺度细粒度特征融合的图片导航方法、装置及介质,属于智能导航技术领域。其中方法包括:获取导航目标位置的目标图像;获取智能体在环境中当前时刻的视觉观测;将目标图像和视觉观测输入多尺度细粒度特征融合模块进行多尺度细粒度特征融合,输出融合后的视觉状态特征;根据视觉状态特征预测智能体下一时刻的状态,以使智能体根据状态执行动作,直到到达导航目标位置。本发明利用深度神经网络中隐藏层高分辨率激活图中所包含的物体细粒度特征,将特征作为提示引导视觉观测模型关注当前环境中与目标图像在低级属性和高级语言上具有相关性的区域,从而改善智能体在探索阶段推理和寻找目标位置的能力。

    一种多智能体强化学习方法、装置及介质

    公开(公告)号:CN116560239A

    公开(公告)日:2023-08-08

    申请号:CN202310824569.9

    申请日:2023-07-06

    Abstract: 本发明公开了一种多智能体强化学习方法、装置及介质,属于多个智能体行为自主控制技术领域。其中方法包括:获取观测,智能体根据观测获取动作概率分布,以及推理队友智能体基于观测的动作概率分布;根据获得的动作概率分布,计算每个智能体与队友智能体的行为一致性;通过动态缩放网络获取动态调节因子,根据动态调节因子计算行为一致性的内部奖励;根据链式求导法则,以最大化外部回报为目标,对动态缩放网络的参数进行优化;使用优化完成的策略实现多智能体的协作任务。本发明提出一种基于行为一致性的内在奖励,解决多智能体协作算法忽略智能体之间行为意图的配合,从而导致出现次优化策略的问题,能够有效地提高多智能体之间的协作性能。

    一种基于开放场景地图的视觉语言导航方法、装置及介质

    公开(公告)号:CN116499471A

    公开(公告)日:2023-07-28

    申请号:CN202310788171.4

    申请日:2023-06-30

    Abstract: 本发明公开了一种基于开放场景地图的视觉语言导航方法、装置及介质,属于智能导航技术领域。其中方法包括:获取智能体在环境中的视觉图像数据;根据视觉图像数据构建开放场景地图表征,所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图;根据构建的开放场景地图表征预测子目标点的位置及导航进度,并执行对应动作。本发明将物体属性层级信息结合开放场景物体和指令标志物的语义信息,将以上信息结合构建开放场景地图,提升该地图对开放场景中多样化物体的属性、位置的表征能力,使地图表征不局限于固定的少量物体类别,且增加的物体属性信息可帮助智能体消除物体类别歧义,准确定位感兴趣物体。

    一种主动聊天机器人构建方法、设备及介质

    公开(公告)号:CN119940407A

    公开(公告)日:2025-05-06

    申请号:CN202411848000.7

    申请日:2024-12-16

    Abstract: 本发明公开了一种主动聊天机器人构建方法、装置、设备及介质,其中方法包括:构建以用户为中心的聊天质量评估器,用于评估聊天机器人对用户背景信息、聊天偏好的主动感知能力;构建用户背景数据集,用来让大模型扮演不同背景身份的用户智能体,和聊天机器人展开多轮对话聊天;对话语料收集与迭代课程学习,用来生成高质量对话语料,并使用迭代课程学习的方法微调聊天机器人对应的大模型,以提升模型对用户背景信息、聊天偏好的主动感知能力。本发明能够让聊天机器人主动关注用户的背景信息和聊天兴趣,给出符合用户聊天偏好的回答,从而提升用户的对话参与度与满意度,改进人机交互体验。本发明可广泛应用于人工智能技术领域。

    一种多目标导航方法、系统、装置及存储介质

    公开(公告)号:CN116929359A

    公开(公告)日:2023-10-24

    申请号:CN202310684966.0

    申请日:2023-06-09

    Abstract: 本发明公开了一种多目标导航方法、系统、装置及存储介质,涉及移动智能体对室内环境的探索与感知。其中方法包括:在预设的多目标导航策略上加入摄像头转动策略;以智能体为中心获取障碍物地图;设计启发式规则,为摄像头转动策略提供先验知识;结合启发式规则提供的转动参考方向、地图以及导航动作,利用深度神经网络预测摄像头转动参考方向;使用以探索为导向的奖励函数,对摄像头转动策略进行优化。本发明将摄像头转动策略建模为深度强化学习过程,通过训练实现摄像头转动和身体移动的协调工作,解决了被动摄像头转动策略探索效率低的问题,可以有效地提高多目标物体导航性能。

Patent Agency Ranking