基于3D-HEVC深度图模式预测的深度图编码方法、装置及可读介质

    公开(公告)号:CN116405683A

    公开(公告)日:2023-07-07

    申请号:CN202310449794.9

    申请日:2023-04-24

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于3D‑HEVC深度图模式预测的深度图编码方法、装置及可读介质,通过构建基于卷积网络的DMM模式预测模型并进行训练,得到经训练的DMM模式预测模型;将待编码深度图序列划分得到第一级别尺寸下的若干个当前待编码块,将当前待编码块输入经训练的DMM模式预测模型,输出的网络预测值为当前待编码块的编码过程中是否需要将DMM模式加入对应尺寸的全率失真代价计算列表的标签值;采用3D‑HEVC编码器对当前待编码块进行编码,在编码过程中调用网络预测值,并确定当前待编码块在对应尺寸下的最佳模式;以判断是否需要将DMM模式加入对应尺寸的全率失真代价计算列表,可避免直接将DMM模式加入全率失真代价计算列表,导致对DMM模式冗余的率失真计算过程。

    一种基于场景迁移的行人性别识别方法

    公开(公告)号:CN111126310B

    公开(公告)日:2023-03-24

    申请号:CN201911367254.6

    申请日:2019-12-26

    Applicant: 华侨大学

    Abstract: 本发明涉及一种基于场景迁移的行人性别识别方法,包括场景迁移过程与性别识别过程。本发明通过对偶生成对抗模型对来自不同场景的行人图像集进行图像迁移,减小不同数据集中行人场景的差异。利用迁移图像训练卷积神经网络,使网络模型具有较高精度的性别识别能力。本发明结合了对偶生成对抗模型用于图像迁移的优点,解决了以往基于卷积神经网络在行人性别识别问题上的不足,有效地提高了行人性别识别精度。本发明可以被广泛地应用在智能视频监控场景,大型商场的人口统计等。

    基于自适应3D卷积的屏幕视频质量评价方法及装置

    公开(公告)号:CN115424168A

    公开(公告)日:2022-12-02

    申请号:CN202210975931.8

    申请日:2022-08-15

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于自适应3D卷积的屏幕视频质量评价方法及装置,获取屏幕视频,基于局部视频活动度Γ(Px,y,t)对屏幕视频进行自适应分割,得到屏幕视频序列集合,屏幕视频包括参考屏幕视频和失真屏幕视频,屏幕视频序列集合包括参考屏幕视频序列集合和失真屏幕视频序列集合;通过3D卷积神经网络分别提取参考屏幕视频序列集合的参考时空卷积特征STr以及失真屏幕视频序列集合的失真时空卷积特征STd;采用双尺度卷积神经网络对参考时空卷积特征STr和失真时空卷积特征STd实现双通道时空特征融合,计算得到失真屏幕视频的质量评价分数。着重于考虑人眼视觉系统特性及屏幕视频本质信息,模拟人类视觉系统的多通道视觉处理过程,从不同角度实现对失真屏幕视频的质量预测。

    基于空间下采样的多描述编码高质量边重建方法

    公开(公告)号:CN111510721B

    公开(公告)日:2022-11-01

    申请号:CN202010278978.X

    申请日:2020-04-10

    Applicant: 华侨大学

    Abstract: 本发明提供了一种基于空间下采样的多描述编码高质量边重建方法,包括,制作数据集:选取视频,通过空间下采样分成两个描述,在量化参数QP值设定下,编码,解码,将解码后的视频和相应的原始视频作为训练集;训练SD‑VSRnet网络:每五帧视频作为网络的输入,依次进行特征提取,恢复高频细节,像素重排,再与输入的中间帧进行跳跃连接得到重建的视频帧,逐帧重建获得最后的重建视频,实现SD‑VSRnet网络的训练。本发明提出的方法制作了适用于空间下采样的多描述编码高质量边重建的数据集,另外,采用视频超分辨率的神经网络,分别测试4种QP值,可以有效提高不同压缩程度的边缘解码视频重建质量。

    一种基于结构相似度的非局部注意力学习方法

    公开(公告)号:CN114972812A

    公开(公告)日:2022-08-30

    申请号:CN202210624115.2

    申请日:2022-06-02

    Abstract: 本发明提供一种基于结构相似度的非局部注意力学习方法,可广泛应用于机器视觉领域,例如图像分割、图像分类、图像识别等。现有非局部注意力方法简单计算不同空域位置的两个信号内积作为二者的相似度度量,并不完全符合人类视觉感知特点。针对这一问题,本发明提出利用结构相似度衡量不同空域位置的信号之间的相似度,在非局部注意力学习方法中充分考虑人类视觉对信号感知三个重要因素,即亮度、对比度和结构。其次,本发明进一步提出多尺度结构相似度度量策略,在不同尺度上更为全面地进行信号相似度度量。因此,本发明能够取得比现有非局部注意力方法更好地注意力学习效果。

    针对H.266/VVC屏幕内容帧内CU划分的快速预测方法及装置

    公开(公告)号:CN114710667A

    公开(公告)日:2022-07-05

    申请号:CN202210269314.6

    申请日:2022-03-18

    Applicant: 华侨大学

    Abstract: 本发明公开了一种针对H.266/VVC屏幕内容帧内CU划分的快速预测方法及装置,通过收集屏幕内容视频建立数据库,用于训练模型;构建宽度自适应网络模型,预测两种不同尺寸CU的划分方式,预测步骤如下:先采用网络模型对64×64大小的CU进行划分方式预测,若为不划分,则停止CU的RD代价计算,若为划分,则得到4个32×32大小的CU,则采用网络模型对32×32大小的CU的划分方式进行预测,若为不划分,则停止RD的代价计算,若为四叉树划分,则得到4个16×16的CU:若为多种类型叉树划分,则需要依靠标准编码器进行计算;最后设定适当的预设阈值来提高预测准确率。本发明能够在保持H.266/VVC编码效率的前提下,有效地降低H.266/VVC屏幕内容的帧内预测编码计算复杂度。

    一种采用图形预测的三维点云压缩方法

    公开(公告)号:CN109166160B

    公开(公告)日:2022-07-01

    申请号:CN201811082243.9

    申请日:2018-09-17

    Applicant: 华侨大学

    Abstract: 本发明公开了一种采用图形预测的三维点云压缩方法,属于视频编码领域,方法包括:采用KD树对输入三维点云进行自适应分块;采用KNN算法计算编码单元内每个点的K邻近点;构建每个单元块的图并计算图形平移算子;对每个编码单元的块进行去均值,采用K‑means算法对编码单元进行自适应采样,通过求解优化问题对未采样点进行预测;利用基于KD树的块均值预测算法对每个编码单元块的均值进行预测编码;最后用算术编码器对所有量化的参数和残差进行熵编码。本发明采用图形预测,能够对庞大的三维点云数据进行有效压缩,极大地改善三维点云的传输和存储效率。

    一种基于多深度特征融合网络的车辆再识别方法

    公开(公告)号:CN108875754B

    公开(公告)日:2022-04-05

    申请号:CN201810426492.9

    申请日:2018-05-07

    Applicant: 华侨大学

    Abstract: 本发明涉及一种基于多深度特征融合的车辆再识别方法,包括:提取训练车辆图像的深度ID特征,提取训练车辆图像的深度颜色特征,提取训练车辆图像的深度车型特征,将提取的三种深度特征进行组合,获得融合特征,通过Softmax分类函数对融合后的深度特征进行分类。本发明对输入的车辆图像提取深度ID特征、深度颜色特征和深度车型特征并进行有效地融合,实现三种深度特征的互补,获得更有表征能力的融合特征,从而实现准确的车辆再识别。

Patent Agency Ranking