面向3D视频的时间空间双维度帧合成方法

    公开(公告)号:CN117880482A

    公开(公告)日:2024-04-12

    申请号:CN202311556130.9

    申请日:2023-11-21

    Abstract: 本发明公开了面向3D视频的时间空间双维度帧合成方法。本发明首先对输入视频中的每帧原始输入图像通过特征提取网络提取特征信息,生成多个不同尺度下的特征图;然后对输入视频在时间维度进行插帧操作,生成时间维度插帧图像,在视点维度进行插帧操作,生成视点维度合成图像;最后通过维度融合网络,将原始输入图像以及对应的特征图、生成的光流信息和掩膜、时间维度插帧图像和视点维度合成图像进行融合,生成同时考虑两个维度信息的高质量生成帧。本发明结合时间、视点双维度信息,生成高质量的中间合成帧,保证了整体网络的并行度,避免了使用不同网络时造成的时延不同步在降低计算冗余的情况下克服了深层网络丢失图像原始信息的问题。

    全局和局部多尺度动态虚拟视点空洞填充方法

    公开(公告)号:CN117372461A

    公开(公告)日:2024-01-09

    申请号:CN202311312683.X

    申请日:2023-10-11

    Abstract: 本发明公开了全局和局部多尺度动态虚拟视点空洞填充方法。本发明首先使用自适应动态模块生成最匹配的卷积核权重,提高了图像重建性能,加速了网络训练的收敛;然后引入了的全局和局部多尺度增强模块学习丰富的多尺度特征,将多尺度上下文信息注入到缺失区域并通过浅层特征与深层特征自适应加权融合,增强了局部特征到整体一致性的连接。在生成器中加入动态卷积模块,提高视觉任务中的性能,同时降低计算成本。本发明通过注意力机制允许网络更好地适应不同输入特征,尤其在处理复杂场景时表现出鲁棒性;使用多膨胀率的扩张卷积来捕获不同尺度特征,引入跨尺度特征融合以及局部和全局残差结构,提高对虚拟视点合成中的空洞区域进行精确填充的能力。

    Transformer与CNN相结合的视频插帧方法

    公开(公告)号:CN118828058A

    公开(公告)日:2024-10-22

    申请号:CN202410708537.7

    申请日:2024-06-03

    Abstract: 本发明公开了Transformer与CNN相结合的视频插帧方法。本发明的网络结构包括特征提取网络、光流估计网络和融合与细化网络。特征提取网络不同阶段的输出作为不同尺度的特征,光流估计网络通过对前后两帧视频图像进行特征提取和运动估计,生成前后两帧到中间帧的双向光流信息,融合与细化网络输入为特征提取网络提取的不同阶段的特征信息、光流估计网络生成的输出光流,输出为一张掩膜图像以及一副残差图像。原始图像经过光流的绘制,再通过掩膜做加权最后加上残差图像,输出最终的插帧图像。本发明通过Transformer模型与CNN网络相结合,能够从整个图像范围内提取丰富的语义信息,并有效地捕捉帧间的运动关系。

    结合时空特征优化的多尺度视频插帧方法

    公开(公告)号:CN118646912A

    公开(公告)日:2024-09-13

    申请号:CN202410661885.3

    申请日:2024-05-27

    Abstract: 本发明属于视频处理技术领域,公开了一种结合时空特征优化的多尺度视频插帧方法,首先通过多尺度特征编码完成不同感受野的运动特征提取,接着利用注意力机制增强输入特征之间的时空依赖性,然后在解码阶段加入时间特征实现任意时刻的中间帧运动估计。采用迭代解码端的方式合成不同时刻的中间帧。最后,将生成的所有结果通过时空优化模块共同优化,进一步捕获多个中间帧之间时空上的关联,保证多倍视频插帧结果的整体一致和连贯性。本发明方法利用重建损失、中间特征损失和感知损失联合优化,有效地解决视频插帧中大尺度运动场景预测不准确的问题,得到更逼真的中间帧。

    一种基于多分支对称网络的非线性运动估计视频插帧方法

    公开(公告)号:CN117376584A

    公开(公告)日:2024-01-09

    申请号:CN202311500891.2

    申请日:2023-11-13

    Abstract: 本发明方法公开了一种基于多分支对称网络的非线性运动估计视频插帧方法,在粗帧合成阶段提取多个连续的视频帧的高级语义特征,并进行编码特征的融合,通过双分支上采样模块中的特征的交互操作和单光流的逐层细化操作自适应地获取视频帧之间的非线性运动特征,得到更为准确的运动估计和粗帧,然后在细帧合成阶段,通过细化网络生成残差来补偿粗帧,得到细化后的中间帧。本发明解决了高阶非线性运动场景的视频插帧问题,提取多个视频帧的高级语义信息,自适应地建立运动模型,有效解决现有技术中难以用固定的数学模型准确描述的问题;通过借助深度学习技术,采用光流法策略,能够更好地处理复杂的运动场景,使得合成的中间帧图像在视觉上更加真实。

    一种低复杂度的快速VVC帧内编码方法

    公开(公告)号:CN114222145A

    公开(公告)日:2022-03-22

    申请号:CN202111597858.7

    申请日:2021-12-24

    Abstract: 本发明公开了一种低复杂度的快速VVC帧内编码方法。本发明中基于上下文相关性的CU划分模块首先根据当前CU块的纹理特征将CU划分为复杂块和简单块;对简单块进行提前终止所有类型的划分,对复杂块继续进行二叉树划分和三叉树划分,以此解决多类型树划分带来的复杂度过高的问题。此外编码器决策出当前CU的最佳模式时。首先对帧内的粗选部分进行优化,在帧内角度预测模式的索引值为2~67的角度模式中每隔4个角度选取一个中心角度,然后基于此再小范围前后各增加2个角度模式搜索;然后利用最有可能模式(MPM)的概率分布特征,对帧内的细选部分进行优化。本发明在保证编码质量的同时降低了VVC编码的复杂度,特别是对于高分辨率的视频有非常好的编码性能。

Patent Agency Ranking