基于多模态注意力机制的视频内容描述方法、系统、装置

    公开(公告)号:CN111079601A

    公开(公告)日:2020-04-28

    申请号:CN201911243331.7

    申请日:2019-12-06

    Inventor: 胡卫明 孙亮 李兵

    Abstract: 本发明属于计算机视觉和自然语言处理领域,具体涉及一种基于多模态注意力机制的视频内容描述方法、系统、装置,旨在解决视频内容描述方法只考虑视频特征而忽略高级语义属性信息,导致生成的描述语句准确度较低的问题。本发明方法包括:获取待描述视频的视频帧序列;提取视频帧序列的多模态特征向量,构建多模态特征向量序列,并通过循环神经网络得到各模态特征向量序列对应的特征表示;通过语义属性检测网络得到各特征表示对应的语义属性向量;基于各模态特征向量序列对应的特征表示级联后的向量、语义属性向量,通过基于注意力机制的LSTM网络得到待描述视频的描述语句。本发明融合视觉特征和高层语义属性,提高了生成视频描述语句的准确度。

    基于低秩矩阵表示的图像前景物体检测方法及检测系统

    公开(公告)号:CN106204613B

    公开(公告)日:2019-09-24

    申请号:CN201610575854.1

    申请日:2016-07-20

    Abstract: 本发明公开了一种基于低秩矩阵表示的图像前景物体检测方法及检测系统。其中,该方法包括提取待处理图像的特征,并利用特征聚类的方式对待处理图像进行子区域划分;接着计算每一子区域的特征均值,以获得子区域的特征表示,并将全部子区域的特征表示排列成矩阵,以获得待处理图像的特征矩阵;然后,利用低秩矩阵表示方法,将特征矩阵分解成低秩矩阵与稀疏矩阵;再针对稀疏矩阵的每一列计算l∞范数,以获得对应子区域的显著性值,并基于子区域的显著值来构成待处理图像的显著图;最后,对显著图进行自适应阈值划分,从而获得待处理图像的前景物体区域。通过本发明实施例解决了如何从前景和背景表观相似的图像中完整地检测前景物体的技术问题。

    基于图卷积网络的人体骨架行为识别方法、系统、装置

    公开(公告)号:CN110222611A

    公开(公告)日:2019-09-10

    申请号:CN201910446596.0

    申请日:2019-05-27

    Abstract: 本发明属于计算机视觉及深度学习领域,具体涉及了一种基于图卷积网络的人体骨架行为识别方法、系统、装置,旨在解决基于图卷积神经网络的人体骨架行为识别结果精度不高的问题。本发明方法包括:获取骨架视频帧并归一化;构建每一帧图对应的人体关节自然连接图;学习非自然连接边,获得人体关节连接图;为人体关节连接图各条边分配权重值;进行图卷积操作,获得骨架序列的空间信息;在时间维度上进行卷积操作,获得骨架序列的行为类别。本发明自然连接边能够学习到基本的人体行为特征,同时非自然连接边可以学习到附加的行为特征,通过自然连接边和非自然连接边共同构成一张图,可以更加充分的表征人体运动信息,提高识别性能。

    一种基于视觉显著性分析的恐怖图像识别方法及系统

    公开(公告)号:CN103440494A

    公开(公告)日:2013-12-11

    申请号:CN201310279120.5

    申请日:2013-07-04

    Inventor: 李兵 胡卫明 吴偶

    Abstract: 本发明公开了一种基于视觉显著性分析的恐怖图像识别方法及系统。该方法包括:建立包括恐怖图像样本和非恐怖图像样本的训练集;利用图像视觉显著性分析算法对每一幅训练样本图像进行视觉显著性分析,以得到每幅训练样本图像的视觉显著图;将每幅训练样本图像划分成W×W小图像块,并对每个图像块提取视觉和情感特征,并利用基于视觉显著性的词包表示模型得到每幅训练样本图像的视觉单词直方图表示;利用得到的每幅训练样本图像的视觉单词直方图及其对应的标签训练支持向量机以得到恐怖图像的分类模型,并利用该分量模型对新的测试图像进行识别,判断其是否为恐怖图像。本发明可应用到Web恐怖图像过滤以及图像情感语义识别等领域,具有广阔的应用前景。

    基于网页视觉特征的网页分类方法及其系统

    公开(公告)号:CN101777060B

    公开(公告)日:2012-05-23

    申请号:CN200910243729.0

    申请日:2009-12-23

    Abstract: 本发明公开一种网页视觉质量的自动评价方法及其系统,包括:收集网页样本,每个样本通过人工来进行标记其为视觉质量高的网页样本还是视觉质量低的网页样本,以此建立训练集,利用网页分割算法来对每幅网页进行分割并提取网页布局块与文本块,把每一幅网页转换成一副图像,结合提取的网页布局块和文本块来提取每一幅网页四方面的特征:布局视觉特征、文本视觉特征、传统视觉特征以及视觉复杂度特征;利用得到的网页特征对支持向量机分类器进行训练,得到分类器参数,并对新网页进行评价,判定其视觉质量的高低。本发明可以应用在Web搜索,网页设计以及Web过滤等诸多方面,提高基于Web的应用程序的性能。

    网页视觉质量的自动评价方法及其系统

    公开(公告)号:CN101777060A

    公开(公告)日:2010-07-14

    申请号:CN200910243729.0

    申请日:2009-12-23

    Abstract: 本发明公开一种网页视觉质量的自动评价方法及其系统,包括:收集网页样本,每个样本通过人工来进行标记其为视觉质量高的网页样本还是视觉质量低的网页样本,以此建立训练集,利用网页分割算法来对每幅网页进行分割并提取网页布局块与文本块,把每一幅网页转换成一副图像,结合提取的网页布局块和文本块来提取每一幅网页四方面的特征:布局视觉特征、文本视觉特征、传统视觉特征以及视觉复杂度特征;利用得到的网页特征对支持向量机分类器进行训练,得到分类器参数,并对新网页进行评价,判定其视觉质量的高低。本发明可以应用在Web搜索,网页设计以及Web过滤等诸多方面,提高基于Web的应用程序的性能。

    基于跨模型泛化和扩散模型的数据集蒸馏方法和装置

    公开(公告)号:CN119904715A

    公开(公告)日:2025-04-29

    申请号:CN202510125811.2

    申请日:2025-01-27

    Abstract: 本公开涉及一种基于跨模型泛化和扩散模型的数据集蒸馏方法和装置,所述方法包括:获取与目标数据集的应用场景对应的多种图像处理模型,得到模型池;从模型池中选择得到替代图像处理模型;将当前样本的特征和针对当前样本的提示词输入到扩散模型,得到替代样本;将替代样本输入到替代图像处理模型,得到替代图像处理模型的当前输出;其中,目标图像处理模型与替代图像处理模型同构;基于替代图像处理模型的当前输出和目标图像处理模型的当前输出,计算目标图像处理模型与替代图像处理模型之间的梯度匹配损失;基于梯度匹配损失对扩散模型进行训练;响应于训练完成,得到对目标数据集蒸馏后的替代数据集。

    基于时空令牌合并的视频处理方法、装置及电子设备

    公开(公告)号:CN119342233A

    公开(公告)日:2025-01-21

    申请号:CN202411299969.3

    申请日:2024-09-18

    Abstract: 本发明提供一种基于时空令牌合并的视频处理方法、装置、电子设备及存储介质,属于视频处理技术领域,包括:获取第一组令牌和第二组令牌,其中,第一组令牌和第二组令牌为一组视频帧中相邻的两个视频帧对应的两组令牌;将第一组令牌和第二组令牌输入第一变换器块,得到第一变换器块输出的部分第一组令牌、部分第二组令牌和一组时序合并令牌;将部分第一组令牌、部分第二组令牌和一组时序合并令牌进行拼接,得到第三组令牌;将第三组令牌输入第二变换器块,得到第二变换器块输出的第四组令牌。本发明提供的基于时空令牌合并的视频处理方法,解决了相关技术中的基于时空令牌合并的视频处理方法,存在视频信息容易丢失且处理性能有限的技术问题。

    基于时空域实例增强的视频复制片段定位方法及装置

    公开(公告)号:CN119206580A

    公开(公告)日:2024-12-27

    申请号:CN202411294779.2

    申请日:2024-09-14

    Abstract: 本发明提供一种基于时空域实例增强的视频复制片段定位方法及装置,其中方法包括:提取查询视频和参考视频中目标帧的区域特征和全局特征,并基于所述区域特征和所述全局特征构造实例关系图;基于所述实例关系图,分别通过空间分支和时间分支获取局部对齐信息和全局对齐信息;通过互补性感知对齐模块,基于所述局部对齐信息和所述全局对齐信息生成最终的帧间对齐结果;所述帧间对齐结果用于所述查询视频和所述参考视频的复制片段定位。其综合考虑了全局语义信息和细粒度的更加鲁棒的局部表示,提升查询视频和参考视频中视频帧的匹配精度,还可以提升查询视频和参考视频中复制片段匹配结果的准确性。

Patent Agency Ranking