-
公开(公告)号:CN115223086A
公开(公告)日:2022-10-21
申请号:CN202211145164.4
申请日:2022-09-20
Applicant: 之江实验室
IPC: G06V20/40 , G06V40/20 , G06V20/62 , G06V10/26 , G06V10/82 , G06F40/284 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于交互注意力引导与修正的跨模态动作定位方法和系统,该方法使用三维卷积神经网络和词向量模型提取视频和文本描述的特征表示,并使用双向长短时间记忆网络学习视频和文本描述的上下文信息;再使用交互注意力引导模块进行视频和文本跨模态特征增强,进一步通过修正门控单元进行语义信息融合;最后将融合后的多模态特征送入到时序定位模块以获得时序片段的匹配度得分和时序边界偏移量。本发明通过增强视频和文本的特征融合能力,能有效提高视频动作定位的性能,满足现实生活中复杂场景的视频动作定位需求。
-
公开(公告)号:CN115620356A
公开(公告)日:2023-01-17
申请号:CN202211019716.7
申请日:2022-08-24
Applicant: 之江实验室
IPC: G06V40/16 , G06V40/20 , G06V20/40 , G06V10/82 , G06F18/25 , G06N3/0464 , G06N3/047 , G06N3/08 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/22 , G10L25/03 , G10L25/24
Abstract: 本发明属于视听处理、机器学习技术领域,公开了一种基于音频和面部输入的受话方检测框架和方法,前端包括音频流编码器和视频流编码器;后端包括交叉注意力模块;双线性融合模块以及自注意力模块;本发明框架输入可变长度的音频和面部区域信息,并通过联合分析音频和面部特征,预测每帧中的受话方。它使用在人对人和人对机器人混合设置中记录的数据集。因此,所述框架可应用并适用于机器人,以区分机器人是否为受话方。使得机器人具有智能视听感知能力,提高了机器人智能化程度。
-
公开(公告)号:CN115223086B
公开(公告)日:2022-12-06
申请号:CN202211145164.4
申请日:2022-09-20
Applicant: 之江实验室
IPC: G06V20/40 , G06V40/20 , G06V20/62 , G06V10/26 , G06V10/82 , G06F40/284 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于交互注意力引导与修正的跨模态动作定位方法和系统,该方法使用三维卷积神经网络和词向量模型提取视频和文本描述的特征表示,并使用双向长短时间记忆网络学习视频和文本描述的上下文信息;再使用交互注意力引导模块进行视频和文本跨模态特征增强,进一步通过修正门控单元进行语义信息融合;最后将融合后的多模态特征送入到时序定位模块以获得时序片段的匹配度得分和时序边界偏移量。本发明通过增强视频和文本的特征融合能力,能有效提高视频动作定位的性能,满足现实生活中复杂场景的视频动作定位需求。
-
公开(公告)号:CN117994861A
公开(公告)日:2024-05-07
申请号:CN202410326461.1
申请日:2024-03-21
Applicant: 之江实验室
IPC: G06V40/20 , G06V20/40 , G06V10/764 , G06V10/74 , G06V10/82 , G06V10/80 , G06N3/0455 , G06N3/0895
Abstract: 本发明公开一种基于多模态大模型CLIP的视频动作识别方法及装置,该方法包括:基于给定的动作类别和视频序列,首先使用词向量模型和分割图像块提取相应的语言和视频信息;其次,基于提示调整结构以及可训练轻量级瓶颈模块适配器调整CLIP的图像编码器和文本编码器,提取语言和视频帧特征;进一步,使用时序差分注意力模块充分挖掘视频帧时序间的特征;最后,对比视频特征和类别编码特征,粗细粒度地计算两者之间的相似性得分,选择得分最高动作类别作为预测结果。本发明通过微调结构的设计,能有效提高判断视频动作类别的性能以及网络模型的泛用性,满足现实生活中复杂场景的视频动作识别需求。
-
公开(公告)号:CN117905734A
公开(公告)日:2024-04-19
申请号:CN202311793747.2
申请日:2023-12-25
Applicant: 之江实验室
Abstract: 本发明公开了一体化双电液伺服阀控液压驱动单元系统及控制方法,通过采取双电液伺服阀通过滑阀节流口控制液压缸两腔流量控制机器人关节转动,油压传感器负载压力,将两腔的压差信号输入到液压伺服控制器中,同时位移传感器将位置反馈信号输入到液压伺服控制器中,液压伺服控制器根据前馈压差和反馈位置计算得到电液伺服阀驱动控制信号,液压伺服控制器通过单片机远程输入输出口进行远程控制伺服驱动器,进而驱动伺服电机动作调节高压油泵的压力,同时输出的电液伺服阀驱动信号控制双电液伺服阀同时进行进出油操作,提高活塞杆的响应速度,通过前馈和反馈的控制方式可实现力控精度的提升。本发明在高频响、大负载液压机器人领域具有重要应用价值。
-
公开(公告)号:CN117765165A
公开(公告)日:2024-03-26
申请号:CN202311668305.5
申请日:2023-12-06
Applicant: 之江实验室
Abstract: 本说明书公开了一种三维重建方法、装置、存储介质及电子设备,本方法获取卫星图像的转换参数,转换参数包括像素点数量及空间分辨率,根据预设的转换关系及转换参数,将空间遥感相机参数转换为针孔相机参数,得到转换后的空间遥感相机参数,根据转换后的空间遥感相机参数,确定卫星图像中像素点对应的采样点在世界坐标系的三维坐标,将采样点的三维坐标输入预先训练的神经辐射场模型,得到神经辐射场模型输出的采样点的特征参数,根据采样点的特征参数,对卫星图像进行三维重建。本方法通过将空间遥感相机参数转换为针孔相机参数,使得卫星图像应用于神经辐射场中,通过神经辐射场,重建三维图像,提高三维重建的准确率。
-
公开(公告)号:CN117994861B
公开(公告)日:2024-10-01
申请号:CN202410326461.1
申请日:2024-03-21
Applicant: 之江实验室
IPC: G06V40/20 , G06V20/40 , G06V10/764 , G06V10/74 , G06V10/82 , G06V10/80 , G06N3/0455 , G06N3/0895
Abstract: 本发明公开一种基于多模态大模型CLIP的视频动作识别方法及装置,该方法包括:基于给定的动作类别和视频序列,首先使用词向量模型和分割图像块提取相应的语言和视频信息;其次,基于提示调整结构以及可训练轻量级瓶颈模块适配器调整CLIP的图像编码器和文本编码器,提取语言和视频帧特征;进一步,使用时序差分注意力模块充分挖掘视频帧时序间的特征;最后,对比视频特征和类别编码特征,粗细粒度地计算两者之间的相似性得分,选择得分最高动作类别作为预测结果。本发明通过微调结构的设计,能有效提高判断视频动作类别的性能以及网络模型的泛用性,满足现实生活中复杂场景的视频动作识别需求。
-
公开(公告)号:CN117765165B
公开(公告)日:2024-09-06
申请号:CN202311668305.5
申请日:2023-12-06
Applicant: 之江实验室
Abstract: 本说明书公开了一种三维重建方法、装置、存储介质及电子设备,本方法获取卫星图像的转换参数,转换参数包括像素点数量及空间分辨率,根据预设的转换关系及转换参数,将空间遥感相机参数转换为针孔相机参数,得到转换后的空间遥感相机参数,根据转换后的空间遥感相机参数,确定卫星图像中像素点对应的采样点在世界坐标系的三维坐标,将采样点的三维坐标输入预先训练的神经辐射场模型,得到神经辐射场模型输出的采样点的特征参数,根据采样点的特征参数,对卫星图像进行三维重建。本方法通过将空间遥感相机参数转换为针孔相机参数,使得卫星图像应用于神经辐射场中,通过神经辐射场,重建三维图像,提高三维重建的准确率。
-
公开(公告)号:CN117765172B
公开(公告)日:2024-05-28
申请号:CN202311708261.4
申请日:2023-12-12
Applicant: 之江实验室
Abstract: 本说明书公开了一种遥感图像三维重建的方法及装置,根据指定观测方向针对各遥感图像包含的各像素确定多个目标点,将各遥感图像分别对应的太阳光方向、图像嵌入向量,以及各目标点的三维坐标作为输入,输入到神经辐射场模型,得到各目标点分别对应的属性信息,根据各目标点分别对应的属性信息,确定各像素点的像素颜色和深度,根据各像素点的像素颜色和深度,生成目标场景对应的数字表面模型以及指定观测方向下的视图合成结果。可见,通过上述方案,充分考虑场景光源以及几何结构的影响,准确描述在不同时间下、不同位置处的目标点的属性信息,从而提升每个像素点的颜色准确性,进而提升数字表面模型以及指定观测方向下视图合成结果的准确性。
-
公开(公告)号:CN117863175A
公开(公告)日:2024-04-12
申请号:CN202311793745.3
申请日:2023-12-25
Applicant: 之江实验室
Abstract: 本发明公开了一种弹琴机器人离线评优系统及方法,首先通过一组三套麦克风系统进行数据采集和筛选,进而通过模式选择器选择曲符、曲片段或者曲全谱作为特征提取模块的输入,特征提取模块对数据进行提取并转化为时频谱图,进而做时频灰度化、生成灰度共生矩阵、提取特征参数,将待测特征参数导入等级筛选模块与标准曲谱的特征参数进行对比,等级筛选器按照偏差百分比进行等级划分,最后输出待测曲谱的等级标准。本发明方法原理简单,等级筛选的准确度高,可以有效地对弹琴机器人的演奏进行客观评价,提高评价的效率和准确性。
-
-
-
-
-
-
-
-
-