-
公开(公告)号:CN120012916A
公开(公告)日:2025-05-16
申请号:CN202411944935.5
申请日:2024-12-27
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06N5/04
Abstract: 本发明涉及一种面向具身交互的情境化场景问答数据生成方法,包括以下步骤:获取目标场景数据;基于所述目标场景数据,利用描述模型生成对应的场景上下文描述;基于智能体在场景中的位置和朝向设定多个不同情景,并根据设定情景将所述场景上下文描述映射到智能体的第一视角,得到对应的情景上下文描述;基于所述目标场景数据,构建交互式问答采集系统来采集真实用户的问答数据;对所述情景上下文描述进行关键词拆分,并将拆分后的关键词作为真实用户参与交互问答过程中的先验提示。本发明能够生成更加符合人类的情境化场景以及具身智能的应用需求的问答数据,为增强智能体的推理能力和泛化能力提供更好的基础。
-
公开(公告)号:CN119920000A
公开(公告)日:2025-05-02
申请号:CN202411961209.4
申请日:2024-12-30
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V40/20 , G06V20/70 , G06F40/284 , G06F40/126 , G06V10/40 , G06V10/62 , G06V10/80 , G06V10/82 , G06V10/764 , G06F18/22 , G06N3/045 , G06N3/0475 , G06N3/0464
Abstract: 本发明涉及一种双向域弥合的行为识别方法,包括:获取待识别RGB图像帧序列及其类别文本;将所述待识别RGB图像帧序列输入文本提示生成模块得到生成式文本;将所述待识别RGB图像帧序列及其类别文本和所述生成式文本输入行为识别模型,得到所述待识别视频的动作类别,所述行为识别模型包括:第一文本编码器模块、图像编码器模块、时序编码器模块、第二文本编码器模块、交互模块、融合模块和相似度计算模块。本发明能够有效缩小预训练模型与行为识别任务之间的域差距,从而显著提升CLIP模型在行为识别领域的适用性和性能。
-