-
公开(公告)号:CN117207204B
公开(公告)日:2024-01-30
申请号:CN202311489049.3
申请日:2023-11-09
Applicant: 之江实验室
Abstract: 本说明书公开了一种弹琴机器人的控制方法及控制装置,通过相机获取到琴键区域图像之后,根据图像中的图像特征点确定各琴键在相机坐标系中的坐标,根据所述各图像特征点在相机坐标系下的坐标以及琴键模板确定出琴键模板中各琴键在相机坐标系下的坐标。通过弹琴机器人在弹琴过程中所处位姿以及各琴键在相机坐标系下的坐标,确定出弹琴机器人与琴键之间的相对位置,通过预先确定的误差拟合函数,对弹琴机器人与琴键之间的相对位置进行误差补偿,控制弹琴机器人上机械臂弹奏补偿后的相对位置。通过预先确定的误差拟合函数对弹琴机器人与琴键之间的相对位置进行误差补偿,减少了弹琴机器人对琴键实时定位的误差。(56)对比文件WO 2022052941 A1,2022.03.17张涵等.竖笛演奏机器人的设计研究《.山东建筑大学学报》.2014,第29卷(第6期),第574-577页.刘佩霞等.自动弹琴机器人的设计《.山西电子技术》.2020,(第6期),第11-13页.
-
公开(公告)号:CN116258931B
公开(公告)日:2023-09-15
申请号:CN202211611986.7
申请日:2022-12-14
Applicant: 之江实验室
IPC: G06V10/80 , G06V10/774 , G06V10/44
Abstract: 基于ViT和滑窗注意力融合的视觉指代表达理解方法,包括:获取训练图像和对应的指代表达文本;对图像和指代表达文本进行预处理;构建基于ViT和滑窗注意力融合策略的视觉指代网络;输入训练的图像及对应的指代表达文本,对视觉指代网络进行训练;将测试图像及描述图像中感兴趣目标的指代表达文本,输入到训练好的视觉指代网络模型,获得视觉指代表达理解的结果。本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统。本发明基于ViT的结构使用窗口注意力进行视觉特征提取和基于滑窗策略来融合多模态特征,大大降低了模型的计算量和推理时间,同时视觉指代表达理解能够帮助机器人对人的意图进行理解,从而提高人机交互的能力。
-
公开(公告)号:CN116258931A
公开(公告)日:2023-06-13
申请号:CN202211611986.7
申请日:2022-12-14
Applicant: 之江实验室
IPC: G06V10/80 , G06V10/774 , G06V10/44
Abstract: 基于ViT和滑窗注意力融合的视觉指代表达理解方法,包括:获取训练图像和对应的指代表达文本;对图像和指代表达文本进行预处理;构建基于ViT和滑窗注意力融合策略的视觉指代网络;输入训练的图像及对应的指代表达文本,对视觉指代网络进行训练;将测试图像及描述图像中感兴趣目标的指代表达文本,输入到训练好的视觉指代网络模型,获得视觉指代表达理解的结果。本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统。本发明基于ViT的结构使用窗口注意力进行视觉特征提取和基于滑窗策略来融合多模态特征,大大降低了模型的计算量和推理时间,同时视觉指代表达理解能够帮助机器人对人的意图进行理解,从而提高人机交互的能力。
-
公开(公告)号:CN115761569A
公开(公告)日:2023-03-07
申请号:CN202211288216.3
申请日:2022-10-20
Applicant: 之江实验室
IPC: G06V20/40 , G06V40/16 , G06V10/44 , G06V10/82 , G06N3/0464
Abstract: 一种基于情感分类的视频情感定位方法,包括:通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征,使用视觉transformer算法获取情感类别;判断各帧之间情感类别关系,删除误检或者异常结果;将相同表情识别结果,且时序距离较近作为视频中情感定位候选片段;基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。本发明能够改善定位片段预设鲁棒性不佳的缺点,保证情感分类准确性的同时提升视频情感定位速率。
-
公开(公告)号:CN117909738A
公开(公告)日:2024-04-19
申请号:CN202410010538.4
申请日:2024-01-02
Applicant: 之江实验室
Abstract: 本说明书公开了一种预测模型训练以及获取建筑物高度的方法及装置。所述任务执行方法包括:获取指定建筑物的图像,将图像输入到预先训练的预测模型的图像编码器中,得到图像的图像特征向量。并获取各提示文本,不同的提示文本用于描述指定建筑物的不同层数,将各提示文本输入到预测模型的文本编码器中,得到各提示文本对应的各文本特征向量。然后,根据各文本特征向量与图像特征向量的相似度,确定各提示文本对应的权重,根据各提示文本对应的权重与各提示文本,确定指定建筑物的层数,通过预设的指定建筑物的单层高度以及指定建筑物的层数,确定指定建筑物的高度。
-
公开(公告)号:CN115761885B
公开(公告)日:2023-08-29
申请号:CN202211433310.3
申请日:2022-11-16
Applicant: 之江实验室
IPC: G06V40/20 , G06V10/42 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 一种共时与跨域异步融合驱动的行为识别方法,包括:获取多人人体彩色图像作为图像序列;从截取图像中估计二维人体姿态,计算二维人体姿态的关键点热图作为姿态序列;建立表观网络,以图像序列作为输入并提取图像特征;同时,建立姿态网络,以姿态序列作为输入并提取姿态特征;以图像特征和姿态特征作为输入,将图像特征和姿态特征进行缩放、对齐和融合;将融合后的图像特征和姿态特征归一化,拼接归一化后的双流特征得到全局特征,输入到分类器中求解概率最大的行为类别;采集多人人体彩色图像序列、二维人体姿态及其对应的类别标签作为训练数据集,对表观网络、姿态网络、共时缩放单元和跨域融合单元进行预训练优化。
-
公开(公告)号:CN117765165B
公开(公告)日:2024-09-06
申请号:CN202311668305.5
申请日:2023-12-06
Applicant: 之江实验室
Abstract: 本说明书公开了一种三维重建方法、装置、存储介质及电子设备,本方法获取卫星图像的转换参数,转换参数包括像素点数量及空间分辨率,根据预设的转换关系及转换参数,将空间遥感相机参数转换为针孔相机参数,得到转换后的空间遥感相机参数,根据转换后的空间遥感相机参数,确定卫星图像中像素点对应的采样点在世界坐标系的三维坐标,将采样点的三维坐标输入预先训练的神经辐射场模型,得到神经辐射场模型输出的采样点的特征参数,根据采样点的特征参数,对卫星图像进行三维重建。本方法通过将空间遥感相机参数转换为针孔相机参数,使得卫星图像应用于神经辐射场中,通过神经辐射场,重建三维图像,提高三维重建的准确率。
-
公开(公告)号:CN117765172B
公开(公告)日:2024-05-28
申请号:CN202311708261.4
申请日:2023-12-12
Applicant: 之江实验室
Abstract: 本说明书公开了一种遥感图像三维重建的方法及装置,根据指定观测方向针对各遥感图像包含的各像素确定多个目标点,将各遥感图像分别对应的太阳光方向、图像嵌入向量,以及各目标点的三维坐标作为输入,输入到神经辐射场模型,得到各目标点分别对应的属性信息,根据各目标点分别对应的属性信息,确定各像素点的像素颜色和深度,根据各像素点的像素颜色和深度,生成目标场景对应的数字表面模型以及指定观测方向下的视图合成结果。可见,通过上述方案,充分考虑场景光源以及几何结构的影响,准确描述在不同时间下、不同位置处的目标点的属性信息,从而提升每个像素点的颜色准确性,进而提升数字表面模型以及指定观测方向下视图合成结果的准确性。
-
公开(公告)号:CN117765172A
公开(公告)日:2024-03-26
申请号:CN202311708261.4
申请日:2023-12-12
Applicant: 之江实验室
Abstract: 本说明书公开了一种遥感图像三维重建的方法及装置,根据指定观测方向针对各遥感图像包含的各像素确定多个目标点,将各遥感图像分别对应的太阳光方向、图像嵌入向量,以及各目标点的三维坐标作为输入,输入到神经辐射场模型,得到各目标点分别对应的属性信息,根据各目标点分别对应的属性信息,确定各像素点的像素颜色和深度,根据各像素点的像素颜色和深度,生成目标场景对应的数字表面模型以及指定观测方向下的视图合成结果。可见,通过上述方案,充分考虑场景光源以及几何结构的影响,准确描述在不同时间下、不同位置处的目标点的属性信息,从而提升每个像素点的颜色准确性,进而提升数字表面模型以及指定观测方向下视图合成结果的准确性。
-
公开(公告)号:CN115761569B
公开(公告)日:2023-07-04
申请号:CN202211288216.3
申请日:2022-10-20
Applicant: 之江实验室
IPC: G06V20/40 , G06V40/16 , G06V10/44 , G06V10/82 , G06N3/0464
Abstract: 一种基于情感分类的视频情感定位方法,包括:通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征,使用视觉transformer算法获取情感类别;判断各帧之间情感类别关系,删除误检或者异常结果;将相同表情识别结果,且时序距离较近作为视频中情感定位候选片段;基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。本发明能够改善定位片段预设鲁棒性不佳的缺点,保证情感分类准确性的同时提升视频情感定位速率。
-
-
-
-
-
-
-
-
-