一种基于多模态大模型CLIP的视频动作识别方法及装置

    公开(公告)号:CN117994861A

    公开(公告)日:2024-05-07

    申请号:CN202410326461.1

    申请日:2024-03-21

    Inventor: 汪雯 张勇 李梦泽

    Abstract: 本发明公开一种基于多模态大模型CLIP的视频动作识别方法及装置,该方法包括:基于给定的动作类别和视频序列,首先使用词向量模型和分割图像块提取相应的语言和视频信息;其次,基于提示调整结构以及可训练轻量级瓶颈模块适配器调整CLIP的图像编码器和文本编码器,提取语言和视频帧特征;进一步,使用时序差分注意力模块充分挖掘视频帧时序间的特征;最后,对比视频特征和类别编码特征,粗细粒度地计算两者之间的相似性得分,选择得分最高动作类别作为预测结果。本发明通过微调结构的设计,能有效提高判断视频动作类别的性能以及网络模型的泛用性,满足现实生活中复杂场景的视频动作识别需求。

    一种卫星影像数据的交互方法、装置及介质

    公开(公告)号:CN119229311A

    公开(公告)日:2024-12-31

    申请号:CN202411728789.2

    申请日:2024-11-28

    Abstract: 本申请公开了一种卫星影像数据的交互方法、装置及介质,该方法包括:对获取的数据处理指令和卫星影像数据的图像解译文本进行解析,以确定用户请求。若用户请求为卫星影像处理请求,调取用于处理卫星影像处理请求的目标视觉基础模型,并制定卫星影像任务策略。基于卫星影像任务策略,控制目标视觉基础模型执行对应的卫星影像任务。由此,将数据处理指令和图像解译文本进行结合解析以全面地了解用户请求,并根据用户请求调取可以实现下游任务的小模型进行卫星影像任务,即,调取可以实现卫星影像处理的视觉基础模型进行卫星影像处理。由此,基于卫星影像数据的准确解析,满足用户快速、准确且高效的卫星影像数据交互。

    一种基于多模态大模型CLIP的视频动作识别方法及装置

    公开(公告)号:CN117994861B

    公开(公告)日:2024-10-01

    申请号:CN202410326461.1

    申请日:2024-03-21

    Inventor: 汪雯 张勇 李梦泽

    Abstract: 本发明公开一种基于多模态大模型CLIP的视频动作识别方法及装置,该方法包括:基于给定的动作类别和视频序列,首先使用词向量模型和分割图像块提取相应的语言和视频信息;其次,基于提示调整结构以及可训练轻量级瓶颈模块适配器调整CLIP的图像编码器和文本编码器,提取语言和视频帧特征;进一步,使用时序差分注意力模块充分挖掘视频帧时序间的特征;最后,对比视频特征和类别编码特征,粗细粒度地计算两者之间的相似性得分,选择得分最高动作类别作为预测结果。本发明通过微调结构的设计,能有效提高判断视频动作类别的性能以及网络模型的泛用性,满足现实生活中复杂场景的视频动作识别需求。

Patent Agency Ranking