一种基于图模型和注意力机制的视频摘要方法、装置、存储介质及设备

    公开(公告)号:CN116887012A

    公开(公告)日:2023-10-13

    申请号:CN202310862903.X

    申请日:2023-07-14

    Abstract: 本发明公开了一种基于图模型和注意力机制的视频摘要方法、装置、存储介质及设备,属于计算机视觉和深度学习技术领域,方法包括:获取视频;将视频输入到训练好的视频摘要模型中得到摘要视频;视频摘要模型通过以下方法进行训练:获取训练视频并按帧进行分割得到视频帧;通过卷积神经网络提取视频帧的图像特征;分别用全局图注意力模型和局部多头注意力模型提取图像特征的全局注意力特征和局部注意力特征,然后将两者相加得到视频帧特征;将视频帧特征和预先获取的关键帧输入到视频摘要模型中进行训练,得到训练好的视频摘要模型;本发明能够提高准确性和镜头多样性。

    一种无参考图像质量评价方法、装置及存储介质

    公开(公告)号:CN115359000A

    公开(公告)日:2022-11-18

    申请号:CN202211009923.4

    申请日:2022-08-23

    Abstract: 本发明公开了一种无参考图像质量评价方法、装置及存储介质,其包括:获取失真图像,并对失真图像进行尺寸调整;提取尺寸调整后的失真图像的梯度图、相位谱图、振幅谱图、频谱图,得到失真图像的特征图集;对尺寸调整后的失真图像进行两倍下采样后,通过双三次插值恢复图像尺寸,得到缩放处理后的图像;根据尺寸调整后的失真图像和缩放处理后的图像,得到失真图像的差异图;提取差异图的梯度图、相位谱图、振幅谱图、频谱图,得到差异图的特征图集;将失真图像及其特征图集、差异图及其特征图集输入预先构建的质量评价模型,得到失真图像的质量评价结果,其中,质量评价模型采用元学习框架构建。本发明具有更好的质量预测准确性和泛化能力。

    基于深度信息和显著性信息的人群计数方法及系统

    公开(公告)号:CN115331171A

    公开(公告)日:2022-11-11

    申请号:CN202210992920.0

    申请日:2022-08-18

    Abstract: 本发明公开了一种基于深度信息和显著性信息的人群计数方法及系统,包括:采集指定区域的人群样本图像;将采集到的人群样本图像输入训练好的基于显著性信息和深度信息的密度图预测模型;输出人群样本图像中的总人数。将人群显著性信息引入了人群计数领域,将人头标注点作为人眼关注点,利用高斯模糊生成人群计数的视觉显著性标签,利用深度学习网络进行训练测试,得到了人群计数的视觉显著性信息,辅助人群计数的训练;利用视觉显著性信息和深度信息相结合的方式来辅助人群计数,利用显著性信息可以校正深度信息,降低没有人群信息区域造成的干扰,提高计数效果。

    基于运动估计的学生行为检测方法

    公开(公告)号:CN108537212B

    公开(公告)日:2022-10-14

    申请号:CN201810721742.1

    申请日:2018-07-04

    Abstract: 本发明公开了一种基于运动估计的学生行为检测方法,应用于智能录播系统中,方法包括步骤:首先由视频采集模块采集智能录播系统中学生行为的YUV数据帧,并对采集得到的YUV数据帧做预处理;然后对预处理后图像的当前帧与前一帧依次做差分、二值化、腐蚀和膨胀操作,实现提取当前帧较于前一帧的运动轮廓区域和运动轮廓区域的外接矩形,并滤除面积过小的外接矩形的功能;接着对运动轮廓区域所在的像素块作运动估计,得到所有像素块的水平位移矢量和垂直位移矢量,并根据水平位移矢量和垂直位移矢量求出运动轮廓区域的运动角度大小;最后根据连续多帧中运动轮廓的运动角度大小对学生行为进行识别。本发明能有效减少行为识别的运算量,提高行为识别的准确性。

    基于多层特征图融合的SSD目标检测算法

    公开(公告)号:CN110188802B

    公开(公告)日:2022-08-30

    申请号:CN201910393189.8

    申请日:2019-05-13

    Abstract: 本发明公开了计算机视觉领域内的一种基于多层特征图融合的SSD目标检测算法,包括以下具体步骤:对图像进行预处理,将图像大小缩放成网络能够进行检测的尺寸;选取网络Darknet53对图像进行特征提取;在网络Darknet53的后面额外增加三个卷积层,融合Darknet53中后三层卷积层及增加的三层卷积层所产生的六层特征图;将该融合的特征图使用卷积进行下采样操作,产生金字塔特征层次结构;将网络Darknet53的后两层及额外增加三个卷积层产生的五层特征图进行上采样操作,然后与金字塔特征层次结构中尺寸对应的特征图进行融合;在这六层融合后的特征图上使用一系列卷积产生最终的检测结果,本发明极大的改善了目标检测的能力,可用于图像处理中。

    基于优化图像前景和背景种子的人眼凝视点预测方法

    公开(公告)号:CN110287802B

    公开(公告)日:2022-08-12

    申请号:CN201910456761.0

    申请日:2019-05-29

    Abstract: 本发明公开了图像处理中的人眼凝视点预测技术领域的一种基于优化图像前景和背景种子的人眼凝视点预测方法,旨在解决现有技术中前景种子或背景种子容易被误分类且对比度与相关性利用不合理的技术问题,本发明所述方法包括以下步骤:对输入图像进行超像素分割;对超像素块,计算空间位置加权的颜色对比度,得到以超像素块为单位的初步显著图;构建7维特征,并计算各类的显著度均值;进行流形排序得到基于优化前景的显著图和基于优化背景的显著图;进行非线性融合,并通过阈值化得到人眼凝视点位置。本发明利用优选的前景和背景种子得到显著图,并通过非线性融合得到最终显著图和人眼凝视点位置,得到的结果更加准确。

    一种基于视频监控的新能源车牌检测方法

    公开(公告)号:CN109255350B

    公开(公告)日:2021-12-10

    申请号:CN201810993897.0

    申请日:2018-08-29

    Abstract: 本发明公开一种基于视频监控的新能源车牌检测方法,包括:采集大量含车牌区域的新能源车辆图片作为训练模型的数据集,对所述数据集中每张图片进行人工标点;构建新能源车牌检测训练神经网络,将所述数据集输入神经网络进行训练得到新能源车牌检测模型;再从监控视频中获取新能源车辆图像,建立包含车牌位置坐标信息的新能源车辆图像集合,根据视频中目标车辆出现的时间顺序将目标车辆图片命名;通过神经网络提取待检测图像特征,将特征送入检测模型进行判断,根据模型输出该车辆图像中车牌图像候选区的置信度;最后,根据得到基于置信度的车牌候选区域,计算车牌的最佳位置坐标点。

    一种基于注意力残差模块和支路融合的人体关键点检测方法

    公开(公告)号:CN111626159A

    公开(公告)日:2020-09-04

    申请号:CN202010410104.5

    申请日:2020-05-15

    Abstract: 本发明公开了一种基于注意力残差模块和支路融合的人体关键点检测方法。属于计算机视觉技术领域,包括如下步骤:用特征提取网络对输入图片进行特征处理,得到特征图;将特征图输入区域生成网络得到目标建议框;进行区域池化操作,得到感兴趣区域特征图;再将其输入卷积层中进行特征提取操作得到特征图一;利用支路一、支路二进行特征提取和融合;将两支路的结果叠加,先用反卷积进行分辨率复原再进行两倍的线性插值上采样;将关键点的位置建模为独热二进制掩码进行训练。本发明使得网络输出的信息多样性有所改善,更好地捕捉不同视野,不仅在简单场景下有效解决了检测关键点混乱的问题,其准确性和效率性得到提高,且能够良好的适应复杂场景。

    一种基于粗定位车牌的字符分割方法

    公开(公告)号:CN107527056B

    公开(公告)日:2020-07-03

    申请号:CN201710780778.2

    申请日:2017-09-01

    Abstract: 本发明提供了一种基于粗定位车牌的字符分割方法。该方法能自动判断出车牌是否完整,并能在车牌完整的基础上实现精准字符分割。首先挑选出二值车牌图像中能框出独立字符且不存在干扰的最佳独立连通区域外接矩形,将其宽度与其余连通区域的外接矩形宽度形成特征映射关系,建立训练库。利用训练库学习得到测试二值车牌的理论字符宽度,并以此调整每个连通区域的外接矩形尺寸,得到粗分割结果,接着直接对粗分割结果进行识别,挑选出识别置信度最高的字符。通过识别置信度最高字符的中心位置判断其在车牌中所处的位置,以此确定不同位置字符的中心点,以实际字符宽度向左右扩展,即可得到每个字符精准的分割结果。

    一种基于局部回归模型的图像超分辨率重建方法

    公开(公告)号:CN105488759B

    公开(公告)日:2019-06-04

    申请号:CN201510902909.0

    申请日:2015-12-09

    Abstract: 本发明公开一种基于局部回归模型的图像超分辨率重建方法,首先,对输入低分辨率图像,高斯低通滤波得到其低频带图像,双立方插值得到输出高分辨率图像的近似低频带图像。其次,重建时对高分辨率图像的低频带图像中每个图像块应用一阶回归模型,回归模型中高/低图像间的映射函数可对输入图像通过机器学习的方法得到,即利用输入低分辨率图像及其低频带图像对应位置采样得到对应位样本图像块对进行字典训练。最后,重建图像块的非局部自相似块分别应用一阶回归模型,加权综合得到重建的高分辨率图像块。本发明所提出方法无需利用外部图像模型,而是利用输入图像自身学习得到先验模型,依此模型重建出的高分辨图像取得了较好的主客观重建效果。

Patent Agency Ranking