基于多阶层特征融合的虚拟视点绘制空洞填充方法

    公开(公告)号:CN118784845A

    公开(公告)日:2024-10-15

    申请号:CN202410741652.4

    申请日:2024-06-11

    Abstract: 本发明公开了基于多阶层特征融合的虚拟视点绘制空洞填充方法,将局部连续帧和非局部随机帧,通过多阶层编码进行特征细化,从空洞区域以外的已知区域传播时空信息,得到局部特征块和非局部特征块;对局部连续帧进行光流补全,得到带有空洞的相邻帧的光流特征,用于检测虚拟视点序列中的运动对象,以引导特征传播,特征传播结合所述局部特征块,传递和更新运动对象的信息,缓解了前背景混叠问题;将更新后的特征和非局部特征块进行内容重建,再解码重构得到空洞修复帧,加入多头时空自注意力模块和融合前馈神经网络,有利于聚合不同特征的信息,充分利用局部和非局部相邻帧的特征,较好处理伪影的问题。

    面向3D视频的时间空间双维度帧合成方法

    公开(公告)号:CN117880482A

    公开(公告)日:2024-04-12

    申请号:CN202311556130.9

    申请日:2023-11-21

    Abstract: 本发明公开了面向3D视频的时间空间双维度帧合成方法。本发明首先对输入视频中的每帧原始输入图像通过特征提取网络提取特征信息,生成多个不同尺度下的特征图;然后对输入视频在时间维度进行插帧操作,生成时间维度插帧图像,在视点维度进行插帧操作,生成视点维度合成图像;最后通过维度融合网络,将原始输入图像以及对应的特征图、生成的光流信息和掩膜、时间维度插帧图像和视点维度合成图像进行融合,生成同时考虑两个维度信息的高质量生成帧。本发明结合时间、视点双维度信息,生成高质量的中间合成帧,保证了整体网络的并行度,避免了使用不同网络时造成的时延不同步在降低计算冗余的情况下克服了深层网络丢失图像原始信息的问题。

    一种虚拟视点合成图像的空洞填充方法

    公开(公告)号:CN118691507A

    公开(公告)日:2024-09-24

    申请号:CN202410682107.2

    申请日:2024-05-29

    Abstract: 本发明公开了一种虚拟视点合成图像的空洞填充方法。本发明方法首先构建生成器,生成器包括下采样层、DCSW Transformer层、特征聚合残差层、全局‑局部融合模块和上采样层;然后构建鉴别器,鉴别器采用基于块的生成对抗网络PatchGAN,包括5个卷积层;构建总损失函数,由L1损失、边缘损失、感知损失、HVS总损失和对抗损失构成;训练生成器和鉴别器,配合生成器网络重构空洞区域的内容和纹理;最后利用训练后的生成器对原始图像进行空洞填充。本发明在虚拟视点空洞填充任务中的具有高效性和优越性能,能够广泛应用于不同的虚拟视点合成场景,具有显著实用价值和推广潜力。

    一种全景视频插帧方法
    4.
    发明公开

    公开(公告)号:CN118646896A

    公开(公告)日:2024-09-13

    申请号:CN202411023544.X

    申请日:2024-07-29

    Abstract: 本发明公开了一种全景视频插帧方法。本发明方法通过全局网络和融合网络实现,每个网络完成特定功能,共同完成视频插帧任务。全局网络包括ERP特征提取模块、串并行编解码模块、自适应运动扭曲预测模块和细化网络模块。ERP特征提取模块采用两个单独的多尺度特征提取模块,自适应运动扭曲预测模块包括权重预测层、水平偏移预测层、垂直偏移预测层和掩膜预测层,细化网络模块包括三层编码器和三层解码器。融合网络包括局部中间帧生成模块、纹理提取模块和多通道融合模块。本发明设计的网络结构能更好地捕获全景图像的特征和扭曲运动轨迹,从而显著提高了全景视频插帧算法的性能和效果,以满足不断增长的全景视频应用需求。

    Transformer与CNN相结合的视频插帧方法

    公开(公告)号:CN118828058A

    公开(公告)日:2024-10-22

    申请号:CN202410708537.7

    申请日:2024-06-03

    Abstract: 本发明公开了Transformer与CNN相结合的视频插帧方法。本发明的网络结构包括特征提取网络、光流估计网络和融合与细化网络。特征提取网络不同阶段的输出作为不同尺度的特征,光流估计网络通过对前后两帧视频图像进行特征提取和运动估计,生成前后两帧到中间帧的双向光流信息,融合与细化网络输入为特征提取网络提取的不同阶段的特征信息、光流估计网络生成的输出光流,输出为一张掩膜图像以及一副残差图像。原始图像经过光流的绘制,再通过掩膜做加权最后加上残差图像,输出最终的插帧图像。本发明通过Transformer模型与CNN网络相结合,能够从整个图像范围内提取丰富的语义信息,并有效地捕捉帧间的运动关系。

    结合时空特征优化的多尺度视频插帧方法

    公开(公告)号:CN118646912A

    公开(公告)日:2024-09-13

    申请号:CN202410661885.3

    申请日:2024-05-27

    Abstract: 本发明属于视频处理技术领域,公开了一种结合时空特征优化的多尺度视频插帧方法,首先通过多尺度特征编码完成不同感受野的运动特征提取,接着利用注意力机制增强输入特征之间的时空依赖性,然后在解码阶段加入时间特征实现任意时刻的中间帧运动估计。采用迭代解码端的方式合成不同时刻的中间帧。最后,将生成的所有结果通过时空优化模块共同优化,进一步捕获多个中间帧之间时空上的关联,保证多倍视频插帧结果的整体一致和连贯性。本发明方法利用重建损失、中间特征损失和感知损失联合优化,有效地解决视频插帧中大尺度运动场景预测不准确的问题,得到更逼真的中间帧。

    一种基于多分支对称网络的非线性运动估计视频插帧方法

    公开(公告)号:CN117376584A

    公开(公告)日:2024-01-09

    申请号:CN202311500891.2

    申请日:2023-11-13

    Abstract: 本发明方法公开了一种基于多分支对称网络的非线性运动估计视频插帧方法,在粗帧合成阶段提取多个连续的视频帧的高级语义特征,并进行编码特征的融合,通过双分支上采样模块中的特征的交互操作和单光流的逐层细化操作自适应地获取视频帧之间的非线性运动特征,得到更为准确的运动估计和粗帧,然后在细帧合成阶段,通过细化网络生成残差来补偿粗帧,得到细化后的中间帧。本发明解决了高阶非线性运动场景的视频插帧问题,提取多个视频帧的高级语义信息,自适应地建立运动模型,有效解决现有技术中难以用固定的数学模型准确描述的问题;通过借助深度学习技术,采用光流法策略,能够更好地处理复杂的运动场景,使得合成的中间帧图像在视觉上更加真实。

Patent Agency Ranking