-
公开(公告)号:CN115761885B
公开(公告)日:2023-08-29
申请号:CN202211433310.3
申请日:2022-11-16
Applicant: 之江实验室
IPC: G06V40/20 , G06V10/42 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 一种共时与跨域异步融合驱动的行为识别方法,包括:获取多人人体彩色图像作为图像序列;从截取图像中估计二维人体姿态,计算二维人体姿态的关键点热图作为姿态序列;建立表观网络,以图像序列作为输入并提取图像特征;同时,建立姿态网络,以姿态序列作为输入并提取姿态特征;以图像特征和姿态特征作为输入,将图像特征和姿态特征进行缩放、对齐和融合;将融合后的图像特征和姿态特征归一化,拼接归一化后的双流特征得到全局特征,输入到分类器中求解概率最大的行为类别;采集多人人体彩色图像序列、二维人体姿态及其对应的类别标签作为训练数据集,对表观网络、姿态网络、共时缩放单元和跨域融合单元进行预训练优化。
-
公开(公告)号:CN116627637A
公开(公告)日:2023-08-22
申请号:CN202310556355.8
申请日:2023-05-17
Applicant: 之江实验室
Abstract: 一种基于云边端架构的机器人展厅场景的多终端任务协同方法和装置,该方法包括:获取用户以及当前场景的信息并上传到边缘端;在边缘端通过机器学习模型和知识库进行用户意图推理,生成待执行的任务信息数据、用户和场景相关的特征数据;根据上述数据在云端通过大语言模型进行机器人以及二级设备的协同运行决策;在边缘端获得云端决策结果生成指令统一下发至机器人,由机器人统一分发执行。本发明基于云边端系统架构,可以实现机器人在展厅导览场景中快速应答,并且和场景中多个设备相互之间智能联动的效果。
-
公开(公告)号:CN117521011A
公开(公告)日:2024-02-06
申请号:CN202311542251.8
申请日:2023-11-16
Applicant: 之江实验室
IPC: G06F18/25 , G06F18/213 , G06F18/22 , G06V10/40 , G06V10/82 , G06F40/289 , G06N3/0455 , G06N3/0464
Abstract: 本说明书公开了一种基于语言指导采样的指代表达理解方法,可以获取包括图像、指代表达文本及指代表达文本对应指代目标的真实目标框的训练集,通过视觉特征编码器获取包含语义信息的多尺度视觉特征,通过语言特征编码器提取语言特征,根据语言特征,对多尺度视觉特征进行特征采样,得到采样后特征,将采样后特征与多尺度视觉特征进行融合,得到目标特征,根据语言特征以及目标特征,对指代表达文本所指代的图像中的位置进行预测,得到预测目标框,从而对整体的网络进行训练,本发明基于语言指导采样,在语言特征的指导下,能够自适应地采样与语言特征相关的视觉特征,从而提升指代表达理解网络的性能。
-
-