一种基于多模态大模型CLIP的视频动作识别方法及装置

    公开(公告)号:CN117994861A

    公开(公告)日:2024-05-07

    申请号:CN202410326461.1

    申请日:2024-03-21

    Inventor: 汪雯 张勇 李梦泽

    Abstract: 本发明公开一种基于多模态大模型CLIP的视频动作识别方法及装置,该方法包括:基于给定的动作类别和视频序列,首先使用词向量模型和分割图像块提取相应的语言和视频信息;其次,基于提示调整结构以及可训练轻量级瓶颈模块适配器调整CLIP的图像编码器和文本编码器,提取语言和视频帧特征;进一步,使用时序差分注意力模块充分挖掘视频帧时序间的特征;最后,对比视频特征和类别编码特征,粗细粒度地计算两者之间的相似性得分,选择得分最高动作类别作为预测结果。本发明通过微调结构的设计,能有效提高判断视频动作类别的性能以及网络模型的泛用性,满足现实生活中复杂场景的视频动作识别需求。

    一体化双电液伺服阀控液压驱动单元系统及控制方法

    公开(公告)号:CN117905734A

    公开(公告)日:2024-04-19

    申请号:CN202311793747.2

    申请日:2023-12-25

    Abstract: 本发明公开了一体化双电液伺服阀控液压驱动单元系统及控制方法,通过采取双电液伺服阀通过滑阀节流口控制液压缸两腔流量控制机器人关节转动,油压传感器负载压力,将两腔的压差信号输入到液压伺服控制器中,同时位移传感器将位置反馈信号输入到液压伺服控制器中,液压伺服控制器根据前馈压差和反馈位置计算得到电液伺服阀驱动控制信号,液压伺服控制器通过单片机远程输入输出口进行远程控制伺服驱动器,进而驱动伺服电机动作调节高压油泵的压力,同时输出的电液伺服阀驱动信号控制双电液伺服阀同时进行进出油操作,提高活塞杆的响应速度,通过前馈和反馈的控制方式可实现力控精度的提升。本发明在高频响、大负载液压机器人领域具有重要应用价值。

    一种三维重建方法、装置、存储介质及电子设备

    公开(公告)号:CN117765165A

    公开(公告)日:2024-03-26

    申请号:CN202311668305.5

    申请日:2023-12-06

    Abstract: 本说明书公开了一种三维重建方法、装置、存储介质及电子设备,本方法获取卫星图像的转换参数,转换参数包括像素点数量及空间分辨率,根据预设的转换关系及转换参数,将空间遥感相机参数转换为针孔相机参数,得到转换后的空间遥感相机参数,根据转换后的空间遥感相机参数,确定卫星图像中像素点对应的采样点在世界坐标系的三维坐标,将采样点的三维坐标输入预先训练的神经辐射场模型,得到神经辐射场模型输出的采样点的特征参数,根据采样点的特征参数,对卫星图像进行三维重建。本方法通过将空间遥感相机参数转换为针孔相机参数,使得卫星图像应用于神经辐射场中,通过神经辐射场,重建三维图像,提高三维重建的准确率。

    一种基于多模态大模型CLIP的视频动作识别方法及装置

    公开(公告)号:CN117994861B

    公开(公告)日:2024-10-01

    申请号:CN202410326461.1

    申请日:2024-03-21

    Inventor: 汪雯 张勇 李梦泽

    Abstract: 本发明公开一种基于多模态大模型CLIP的视频动作识别方法及装置,该方法包括:基于给定的动作类别和视频序列,首先使用词向量模型和分割图像块提取相应的语言和视频信息;其次,基于提示调整结构以及可训练轻量级瓶颈模块适配器调整CLIP的图像编码器和文本编码器,提取语言和视频帧特征;进一步,使用时序差分注意力模块充分挖掘视频帧时序间的特征;最后,对比视频特征和类别编码特征,粗细粒度地计算两者之间的相似性得分,选择得分最高动作类别作为预测结果。本发明通过微调结构的设计,能有效提高判断视频动作类别的性能以及网络模型的泛用性,满足现实生活中复杂场景的视频动作识别需求。

    一种三维重建方法、装置、存储介质及电子设备

    公开(公告)号:CN117765165B

    公开(公告)日:2024-09-06

    申请号:CN202311668305.5

    申请日:2023-12-06

    Abstract: 本说明书公开了一种三维重建方法、装置、存储介质及电子设备,本方法获取卫星图像的转换参数,转换参数包括像素点数量及空间分辨率,根据预设的转换关系及转换参数,将空间遥感相机参数转换为针孔相机参数,得到转换后的空间遥感相机参数,根据转换后的空间遥感相机参数,确定卫星图像中像素点对应的采样点在世界坐标系的三维坐标,将采样点的三维坐标输入预先训练的神经辐射场模型,得到神经辐射场模型输出的采样点的特征参数,根据采样点的特征参数,对卫星图像进行三维重建。本方法通过将空间遥感相机参数转换为针孔相机参数,使得卫星图像应用于神经辐射场中,通过神经辐射场,重建三维图像,提高三维重建的准确率。

    一种遥感图像三维重建的方法及装置

    公开(公告)号:CN117765172B

    公开(公告)日:2024-05-28

    申请号:CN202311708261.4

    申请日:2023-12-12

    Abstract: 本说明书公开了一种遥感图像三维重建的方法及装置,根据指定观测方向针对各遥感图像包含的各像素确定多个目标点,将各遥感图像分别对应的太阳光方向、图像嵌入向量,以及各目标点的三维坐标作为输入,输入到神经辐射场模型,得到各目标点分别对应的属性信息,根据各目标点分别对应的属性信息,确定各像素点的像素颜色和深度,根据各像素点的像素颜色和深度,生成目标场景对应的数字表面模型以及指定观测方向下的视图合成结果。可见,通过上述方案,充分考虑场景光源以及几何结构的影响,准确描述在不同时间下、不同位置处的目标点的属性信息,从而提升每个像素点的颜色准确性,进而提升数字表面模型以及指定观测方向下视图合成结果的准确性。

    一种弹琴机器人离线评优系统及方法

    公开(公告)号:CN117863175A

    公开(公告)日:2024-04-12

    申请号:CN202311793745.3

    申请日:2023-12-25

    Abstract: 本发明公开了一种弹琴机器人离线评优系统及方法,首先通过一组三套麦克风系统进行数据采集和筛选,进而通过模式选择器选择曲符、曲片段或者曲全谱作为特征提取模块的输入,特征提取模块对数据进行提取并转化为时频谱图,进而做时频灰度化、生成灰度共生矩阵、提取特征参数,将待测特征参数导入等级筛选模块与标准曲谱的特征参数进行对比,等级筛选器按照偏差百分比进行等级划分,最后输出待测曲谱的等级标准。本发明方法原理简单,等级筛选的准确度高,可以有效地对弹琴机器人的演奏进行客观评价,提高评价的效率和准确性。

Patent Agency Ranking