视频定位模型训练方法
    1.
    发明公开

    公开(公告)号:CN118587409A

    公开(公告)日:2024-09-03

    申请号:CN202411054298.4

    申请日:2024-08-02

    摘要: 本申请提供视频定位模型训练方法,包括:通过初始视频定位模型提取样本数据集中样本文本的单词级文本特征,以及样本数据集中样本视频的帧级视频特征;融合单词级文本特征与帧级视频特征,得到句子级文本特征和包含上下文语义信息的视觉特征;确定视觉特征对应的剪辑视频段的阶段特定表示,并根据阶段特定表示,在剪辑视频段中选取候选视频段;通过候选视频段与样本数据集中的真实视频段,对初始视频定位模型进行训练,直至满足训练停止条件,得到目标视频定位模型。本申请能够获取更具辨识力的多模态融合特征,并增强模型的跨模态对齐能力,实现视频和文本之间的细粒度对齐,提高了模型的组合泛化能力,保障模型能够实现高效的组合时刻定位。

    基于时域去噪掩码的视频时序一致性增强方法

    公开(公告)号:CN111986105B

    公开(公告)日:2024-03-26

    申请号:CN202010733344.9

    申请日:2020-07-27

    IPC分类号: G06F7/544 G06T7/00

    摘要: 本发明公开了一种基于时域去噪掩码的视频时序一致性增强方法,属于视频处理领域。为解决现有图像处理方法不能在时序一致性和感知一致性之间达到很好的平衡,且其对应的输出效果很大程度上依赖于视频的预处理算法的问题,本申请方法包括:首先,对源视频进行采样,并进行预处理;其次,提取源视频的帧序列中的时序特征,并提取经预处理后视频的帧序列中的感知特征;然后,根据所述时序特征及所述感知特征构建时序去噪掩码网络,并通过所述构建的时序去噪网络重构源视频帧,并训练时序去噪掩码网络;最后,通过所述训练好的时序去噪掩码网络将输入的视频输出为时序稳定的视频。本发明能够减少图像处理算法的依赖性,进而能够增强视频时序一致性。

    一种跨域对齐嵌入空间的零样本跨模态检索方法

    公开(公告)号:CN110990595B

    公开(公告)日:2023-05-05

    申请号:CN201911228649.8

    申请日:2019-12-04

    IPC分类号: G06F16/43 G06F16/48 G06F16/45

    摘要: 本发明涉及跨模态检索技术领域,具体的说,是一种跨域对齐嵌入空间的零样本跨模态检索方法。所述的零样本跨模态检索方法先将不同模态数据和类别标签一起通过变分自动编码器映射到不同模态共同的低维的潜在嵌入空间,然后采用跨模态重构机制进行数据重构、采用跨域对齐机制进行跨域对齐、采用循环一致性约束机制进行循环一致性约束,经过整个网络训练后进行跨模态检索。本发明利用一个多模态变分自动编码器来构建类别嵌入和相同类别下不同模态的共同低维潜在嵌入空间而不是直接使用类别嵌入作为语义空间,并且避免了使用难以稳定训练的对抗生成网络,同时解决了“异构鸿沟”的问题。

    一种基于语言重建和图机制的视频段落定位方法

    公开(公告)号:CN114357124A

    公开(公告)日:2022-04-15

    申请号:CN202210270425.9

    申请日:2022-03-18

    摘要: 本发明涉及多模态视频理解中的跨模态内容检索技术领域,公开了一种基于语言重建和图机制的视频段落定位方法,包括:选择数据集,构建视频段落,使用损失函数训练模型,最后验证模型效果。本发明用于提高细粒度的异构数据之间的信息交互能力,增强对视频内容的理解,提高模型对视频‑文本的跨模态内容理解能力。本发明可用于各种多模态视频理解场合,如网络视频APP、智慧安防系统、大规模视频内容检索等,可改善用户软件使用体验,提高视频、安防、社会治理等相关领域工作人员的工作效率。

    一种基于语义解耦的无提议时序语言定位方法

    公开(公告)号:CN113934887B

    公开(公告)日:2022-03-15

    申请号:CN202111561246.2

    申请日:2021-12-20

    摘要: 本发明公开了一种基于语义解耦的无提议时序语言定位方法,涉及跨模态内容检索领域,解决现有无提议定位机制中存在的技术问题,包括对原始视频进行解耦,分解出多层次的视觉特征流,并在各个视觉特征流内,进行模态内和跨模态的上下文建模,从而保持了基于候选提议方法的优势,采用跨语义的集成机制,将信息交互后的多模态上下文特征集成为细粒度特征,最后利用无提议定位的机制,直接求解出目标视频片段的开始与结束位置。利用无提议定位方法的边界定位机制的同时,使用了中间特征来辅助视频的内容理解,克服了现有无提议定位机制的缺陷。

    一种基于内存分块模型的工业异常检测方法

    公开(公告)号:CN113888538B

    公开(公告)日:2022-02-18

    申请号:CN202111474998.5

    申请日:2021-12-06

    IPC分类号: G06T7/00 G06N3/04 G06N3/08

    摘要: 本发明涉及计算机视觉中的工业异常检测领域,公开了一种基于内存分块模型的工业异常检测方法,包括获取训练数据集和测试数据集;对训练数据集使和测试数据集使用相同的预处理方式进行预处理操作;构建教师网络的基础网络结构层,并预训练教师网络的权重,固定所述权重;获取学生网络的基础网络结构层,并获取所述基础网络结构层中每一层的两个基础模块,在两个基础模块之间放置内存分块模型;对修改后的学生网络进行参数初始化操作;将经过预处理操作的训练数据集和测试数据集输入进基于内存分块模型的教师学生网络中进行训练;使用训练好的学生网络和预训练后的教师网络权重进行工业异常检测测试,获取异常检测结果。

    一种感知视频片段关系的时序动作检测方法

    公开(公告)号:CN113255570B

    公开(公告)日:2021-09-24

    申请号:CN202110659154.1

    申请日:2021-06-15

    摘要: 本发明涉及视频理解领域,具体是一种感知视频片段关系的时序动作检测方法,包括如下步骤:步骤S1:对视频进行采样;步骤S2:对视频进行初步的特征提取;步骤S3:对提取的特征进行特征增强,产生时序节点的边界预测,此外,还会抽取所有候选视频段的特征;步骤S4:捕获候选视频段特征之间的关系;步骤S5:将步骤S3和步骤S4的预测结果结合起来,生成最后的评判分数;步骤S6:对重复的候选视频段进行剔除;步骤S7:对候选视频段进行分类,得到其类别信息;通过捕获他们之间的全局关系和局部关系来产生更加有效的视频段特征,从而产生更加有效的预测结果。

    一种基于知识蒸馏的素描图处理方法及其系统

    公开(公告)号:CN113360701A

    公开(公告)日:2021-09-07

    申请号:CN202110908616.9

    申请日:2021-08-09

    IPC分类号: G06F16/583 G06F16/55

    摘要: 本发明公开了一种基于知识蒸馏的素描图处理方法及其系统,包括:获取预训练的由图像分类模型构成的教师模型,并基于教师模型提取样本图像的教师特征和教师分类概率;构建能够基于素描图进行图像分类的学生模型,并基于学生模型提取样本图像的第一学生特征和第一学生分类概率,并基于学生模型提取样本图像对应样本素描图的第二学生特征和第二学生分类概率;基于教师特征、教师分类概率、第一学生特征、第一学生分类概率、第二学生特征和第二学生分类概率计算分类损失和蒸馏损失,并基于分类损失和蒸馏损失更新学生模型;学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果。

    基于关系推理网络的视频和文本的跨模态检索方法

    公开(公告)号:CN113239159A

    公开(公告)日:2021-08-10

    申请号:CN202110451431.X

    申请日:2021-04-26

    摘要: 本发明涉及跨模态检索领域,公开了一种基于关系推理网络的视频和文本的跨模态检索方法,包括:提取视频数据特征和文本数据特征;运用循环神经网络获取视频全局特征和文本全局特征;运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征;分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征;映射视频融合特征和文本融合特征到公共空间,并对齐公共空间中的视频融合特征分布和文本融合特征分布;对整体网络进行训练。本发明同时关注全局特征和局部关系特征,能更有效的聚焦到单模态数据中的重点信息,进而实现跨模态检索。