基于多模态大模型微调的视频行为识别方法、装置和设备

    公开(公告)号:CN119495127A

    公开(公告)日:2025-02-21

    申请号:CN202510075914.2

    申请日:2025-01-17

    Abstract: 本公开的实施例涉及视频检测技术领域,具体涉及基于多模态大模型微调的视频行为识别方法、装置和设备。本公开方法的一具体实施方式包括:获取视频行为识别数据集和初始视频行为识别模型;对于每个视频行为识别数据,执行以下步骤:确定视频行为识别数据包括的视频帧序列对应的关键帧图像;将关键帧图像存储至预设图像存储位置;基于标签文本模板、关键帧图像、图像存储路径和视频行为识别数据包括的行为标签,生成训练样本,其中,训练样本包括样本图像和样本标签数据;对初始视频行为识别模型进行训练,以及确定为视频行为识别模型;将目标视频数据输入视频行为识别模型,得到视频行为文本信息。该实施方式可以提高视频行为识别模型的训练时长。

    手写棋谱录入方法及设备
    18.
    发明授权

    公开(公告)号:CN114299526B

    公开(公告)日:2025-04-29

    申请号:CN202111602980.9

    申请日:2021-12-24

    Abstract: 本申请涉及一种手写棋谱录入方法及设备,方法包括:获取手写棋谱图像;基于交互式区域生长算法将手写棋谱图像有序分割成多个独立表格区域,将分割得到的各独立表格区域压入第一堆栈中,依次从第一堆栈中提取独立表格区域并获取独立表格区域对应的字符信息,将各独立表格区域对应的字符信息进行标注并保存。由于各独立表格区域均对应一张手写棋谱表格,本申请中,在待识别的手写棋谱图像中包含多个手写棋谱表格时,基于交互式区域生长算法对多个手写棋谱表格进行有序分割并依次单独识别,由于手写棋谱表格是进行有序分割的,后续可以将识别出的字符信息根据其对应的手写棋谱表格进行标注后进行保存。

    一种基于层级图卷积网络的群体场景图生成方法

    公开(公告)号:CN113901902B

    公开(公告)日:2024-08-20

    申请号:CN202111155721.6

    申请日:2021-09-30

    Abstract: 本发明公开了一种基于层级图卷积网络的群体场景图生成方法,利用预训练卷积神经网络提取体育视频中所有个体的视觉特征和包围盒,聚类为两个队伍,根据视觉特征构造队伍关系图和群体关系图,将队伍关系图输入队伍图卷积网络提取队伍关系特征,将群体关系图输入群体图卷积网络提取群体关系特征,根据队伍关系特征和群体关系特征生成群体场景图,上述方法能有效捕捉体育视频中群体间关系,生成群体场景图进行体育视频理解。在团体对抗型体育项目中,运动员个体间关系被弱化,队伍间关系得到凸显,因此能简化场景图生成方法的应用场景,将场景图生成方法应用于体育视频捕捉群体间关系,生成群体场景图进行体育视频的理解。

    图像目标识别方法、装置、电子设备和计算机可读介质

    公开(公告)号:CN118172547A

    公开(公告)日:2024-06-11

    申请号:CN202410605736.5

    申请日:2024-05-16

    Abstract: 本公开的实施例公开了图像目标识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:对输入图像中的各个前景目标进行标记处理;对前景目标矩形框区域进行特征提取,生成前景目标图像特征;执行以下步骤:将前景目标图像特征与待检测目标图像特征之间的相似度确定为初始特征相似度;对各个待检测目标图像特征进行排序;选择初始特征作为第一筛选特征集合;执行以下步骤:生成第二筛选特征集合;生成前景目标图像特征和初始特征的相似度;生成对应前景目标图像特征的图像目标信息。该实施方式在针对新的图像目标检测需求信息可以不需要重新采集图像数据,节约了计算资源,缩短了图像目标检测的时间。

Patent Agency Ranking