视频语言定位方法、设备和存储介质

    公开(公告)号:CN118377931A

    公开(公告)日:2024-07-23

    申请号:CN202410274587.9

    申请日:2024-03-11

    摘要: 本发明提供一种视频语言定位方法、设备和存储介质,包括:获取待查询定位视频的视频特征序列与自然语言查询文本的文本特征序列;将文本特征序列与平衡令牌进行拼接,得到平衡后的文本特征序列;将平衡后的文本特征序列与视频特征序列输入多模态融合编码器中进行多模态融合,得到相应的多模态特征;将多模态特征输入解码器中,得到待查询定位视频中自然语言查询文本对应的查询定位视频片段。通过将可学习的平衡令牌添加到文本特征序列中,并在两个模态融合的过程中占用无关帧的注意力分数,限制查询文本特征与无关帧特征的融合,以确保相关帧的显著性。还通过由粗到细的多模态融合编码器,获得更好的多模态融合效果,提高了视频定位的精准度。

    用于零化视觉指代表达理解方法、装置、设备及介质

    公开(公告)号:CN118196376A

    公开(公告)日:2024-06-14

    申请号:CN202410287259.2

    申请日:2024-03-13

    IPC分类号: G06V10/25 G06F40/16 G06N5/04

    摘要: 本发明提供一种用于零化视觉指代表达理解方法、装置、设备及介质,方法包括:将指代表达文本输入至大型语言模型中,输出各目标类别;将各目标类别和待指代图像输入至目标检测器中,输出各目标区域图像和目标位置和目标大小;基于大型语言模型将指代表达文本映射至第一离线推理函数上,基于第一离线推理函数、各目标区域图像和目标位置和目标大小,确定目标属性的第一目标得分;基于各目标区域图像以及第二离线推理函数确定目标属性的第二目标得分,基于第一目标得分和第二目标得分,确定视觉指代表达理解结果。该方法将大型语言模型、目标检测器以及离线推理函数有机结合,对指代表达文本进行平行拆解,无需训练样本即可进行显式鲁棒的视觉推理。