一种基于对称多尺度注意力的视频摘要方法

    公开(公告)号:CN117493607A

    公开(公告)日:2024-02-02

    申请号:CN202311415276.1

    申请日:2023-10-30

    Abstract: 本发明公开了一种基于对称多尺度注意力的视频摘要方法,该方法首先获得原始视频帧序列,并利用预训练好的特征提取模型对视频帧进行特征提取,得到视频帧级特征。其次构建视频摘要生成网络,将提取的视频帧级特征输入到所述构建的视频摘要生成网络中生成帧级重要性得分。然后构建均方误差损失函数,计算预测的关键帧序列与真实值之间的差距并损失,迭代优化整个网络直至收敛最后根据帧级重要性得分,将预测的关键帧序列使用核时序分割方法转化01背包问题进行求解,获得关键镜头序列,输出视频摘要结果。本发明改善模型捕捉变长上下文场景信息的能力,准确生成视频摘要。

    一种基于适配网络增强扩散模型的人体姿态场景恢复方法

    公开(公告)号:CN117392675A

    公开(公告)日:2024-01-12

    申请号:CN202311293866.1

    申请日:2023-10-09

    Abstract: 本发明公开了一种基于适配网络增强扩散模型的人体姿态场景恢复方法,属于计算机视觉的图像生成领域,该方法首先每一组训练用的数据表示为一个五元组B(N)分别制作灰度图A0,B0。其次由扩散模型得到扩散模型中主(A(N),B(N),y,ZA,ZB),并用点阵A(N),副适配器的差异,并根据差异计算出损失函数,并计算结余损失。最后根据损失函数和结余损失函数得到全局优化函数,对输出的人物姿态图进行优化。本发明消除了通过试探方法训练寻找损失函数间权值时所需的计算开销,实现了预训练模型功能细分的训练方式,使得输出的人物姿态图更为准确稳定。

    一种基于局部空间聚合神经辐射场的场景新视图生成方法

    公开(公告)号:CN116993826A

    公开(公告)日:2023-11-03

    申请号:CN202310945852.7

    申请日:2023-07-31

    Abstract: 本发明提供了一种基于局部空间融合神经辐射场的场景新视图生成方法,包含如下步骤:S1,将输入图片使用COLMAP进行摄像机标定,并对图像上各像素对应的射线进行数字化表示;S2,构建网络结构,包含神经辐射场网络模型与局部空间信息聚合模型;S3,依据优化采样方式选择像素作为每次网络迭代的输入,输出每个采样点的预测密度与预测颜色;S4,建立体渲染模型计算得到各条光线对应像素点颜色;S5根据像素点的实际颜色与预测颜色,考虑局部空间颜色信息的一致性构建损失函数,并以此更新S2网络结构的参数;本发明通过获取并融合局部空间的三维点信息,进行三维邻近空间中共有特征的交互,以实现质量更高的新视图生成。

    一种基于对抗式训练的多模态适配网络学习方法

    公开(公告)号:CN116776938A

    公开(公告)日:2023-09-19

    申请号:CN202310694109.9

    申请日:2023-06-13

    Abstract: 本发明公开了一种基于对抗式训练的多模态适配网络学习方法,包括如下步骤:S1、构建对抗式多模态适配网络,包括多模态模型的构建和对抗式扰动生成器的构建;S2、设置损失函数,包括原始损失、扰动后损失和扰动差异损失;S3、所构建的多模态模型朝着最小化所设置的损失函数的损失方向优化,所构建的对抗式扰动生成器朝着最大化所设置的损失函数的损失方向进行优化。该方法在现有的多模态模型上搭建用于适配下游任务的适配器和用于生成对抗式噪声扰动的扰动生成器,并将适配器与扰动生成器统一在一个对抗式训练的框架中进行端到端的训练,使得多模态模型在对下游任务的适配上能够获得更好的稳健性与泛化性。

    一种基于模态内间协同多线性池化的视频时序定位方法

    公开(公告)号:CN111368870B

    公开(公告)日:2023-09-05

    申请号:CN201911063010.9

    申请日:2019-10-31

    Inventor: 余宙 俞俊 宋怡君

    Abstract: 本发明公开了一种基于模态内间协同多线性池化的视频时序定位方法。本发明包括以下步骤:1、对视频和文本数据进行数据预处理,提取特征。2、通过模态内间协同多线性池化模块或泛化的模态内间协同多线性池化模块将视频和文本进行特征融合。3、基于视频时序定位任务的神经网络结构。4、模型训练,将多任务损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对视频时序定位的深度神经网络,特别是提出一种对视频‑文本的数据进行跨模态融合的模块,充分利用各模态的深层次特征,由此模块延伸出一种同时对视频时序信息的交互方法,提高了扩模态特征的表达能力,并且在视频时序定位领域中的获得较好效果。

    一种基于多特征差分注意网络的视频摘要生成方法

    公开(公告)号:CN116049487A

    公开(公告)日:2023-05-02

    申请号:CN202310155969.5

    申请日:2023-02-23

    Abstract: 本发明公开了一种基于多特征差分注意网络的视频摘要生成方法,通过策略性地融合以对象为中心、以场景为中心和差异注意特征提出了一种多特征差分注意方案,分别推导了以对象为中心和以场景为中心的表示的不同注意力,以通过在时间中涉及更多动态交互来学习判别特征。多个特征与全局和局部多头注意机制结合使用,以提高视频摘要的性能。本发明利用多种特征来充分利用前景对象和背景场景中的视觉辨别力。更重要的是,集成了差异注意功能以改善相邻视频帧之间动态依赖性的捕获。

    一种基于外部知识约束的开放式视频问答方法

    公开(公告)号:CN115827836A

    公开(公告)日:2023-03-21

    申请号:CN202211460058.5

    申请日:2022-11-17

    Inventor: 俞俊 金尧 朱素果

    Abstract: 本发明公开了一种基于外部知识约束的开放式视频问答方法,其主要涉及一个可以有效生成域外答案的开放式视频问答框架,以及通过自适应外部知识模块和多流信息交互机制来引入外部常识知识为域外答案的生成提供丰富的语义支持。本发明包括以下步骤:1、对视频和以自然语言描述的问题,答案文本进行数据预处理,2、自适应外部知识模块和多流信息交互机制,进行外部常识知识的引入和特征交互,3、利用解码器结构进行答案生成,4、模型训练,利用反向传播算法训练模型参数。本发明能够有效生成域外答案的开放式视频问答框架,以及利用外部常识知识进行特征融合和答案生成,并且获得了目前在开放式视频问答领域中的最好效果。

    一种基于深监督融合和特征平滑的指向性物体分割方法

    公开(公告)号:CN115331005A

    公开(公告)日:2022-11-11

    申请号:CN202210955003.5

    申请日:2022-08-10

    Abstract: 本发明公开了一种基于深监督融合和特征平滑的指向性物体分割方法。本发明采用深监督特征融合,能够在特征融合与上采样过程中对特征充分监督,同时可以有效结合不同细粒度特征信息,使的最终获得的掩码即可以保留全局特征下的位置信息,也可兼顾局部特征中的细节信息从而有效的提高分割的准确率,采用特征平滑损失函数,可以有效降低特征在融合与上采样过程的大幅波动的可能性,提升最终生成分割掩码的一致性,保证了模型训练过程的稳定性。基于不同的backbone可采用一些训练技巧,选择对应合理的网络参数、优化算法以及学习率的设置,从而提高了指向性物体分割的准确率。

Patent Agency Ranking