一种基于视频上下文信息融合的多模态密集视频描述方法

    公开(公告)号:CN114627162A

    公开(公告)日:2022-06-14

    申请号:CN202210347546.9

    申请日:2022-04-01

    Abstract: 本发明公开了一种基于视频上下文信息融合的多模态密集视频描述方法,用于处理密集视频描述任务。本发明步骤如下:步骤(1)、数据预处理,提取视频多模态数据特征;步骤(2)、建立多模态密集视频描述网络,并引入时间‑语义关系模块;步骤(3)、模型训练,优化描述生成器,得到模型在视频上的文本描述;模型通过采用稀疏采样和引入时间‑语义关系模块,解决了视频描述任务中普遍存在的视频信息冗余以及视频事件与事件之间关系的引入问题,从而减少了模型的计算量,提高了生成句子的连贯性与一致性。在数据集上的实验表明,通过使用这两种方法,能够有效提升模型生成文本描述的效果与性能。

    一种多网络联合辅助生成式知识蒸馏方法

    公开(公告)号:CN114549901A

    公开(公告)日:2022-05-27

    申请号:CN202210172188.2

    申请日:2022-02-24

    Abstract: 本发明公开了一种多网络联合辅助生成式知识蒸馏方法,首先进行图像分类数据集预处理;然后根据确定的图像分类数据集选择教师网络模型并训练;再根据确定的图像分类数据集选择困难样本生成器G1和学生网络,组成对抗知识蒸馏框架;建立生成对抗知识蒸馏的目标函数;对组建好的对抗知识蒸馏框架进行迭代训练;最后引入简单样本生成器G2,使用困难样本生成器G1和简单样本生成器G2交替调整学生网络,得最终结果。本发明额外引入了一个简单样本生成器,并且简单样本生成器直接复制训练好的困难样本生成器,并没有增加计算量,而且操作简单。在简单样本生成器帮助学生网络回顾简单样本的情况下,最终在目标任务上取得了更好的效果。

    一种基于生成对抗网络的面部图像增强方法

    公开(公告)号:CN108537743B

    公开(公告)日:2022-05-20

    申请号:CN201810206149.3

    申请日:2018-03-13

    Inventor: 俞俊 孙可嘉 高飞

    Abstract: 本发明公开了一种基于生成对抗网络的面部图像增强方法.本发明包括以下步骤:1、使用3D稠密面部对齐方法对多种姿态的面部图像进行预处理;2、设计基于生成对抗网络的面部增强网络,两步生成对抗网络。3、针对任务需要设计Step‑I和Step‑II对应的目标函数4、使用MS‑1‑celeb预训练识别模型,并使用扩增数据预训练TS‑GAN模型;5、使用Multi‑PIE作为训练集,利用反向传播算法训练(4)中完成预训练的TS‑GAN模型参数,直至收敛。使用最终训练的TS‑GAN模型可以得到与输入图像对应的正脸图像,同时该图像保留原始光照、视觉程度真实,并且保留了原有的身份信息。

    一种基于面向对象的双流注意力网络的视频问答方法

    公开(公告)号:CN114428866A

    公开(公告)日:2022-05-03

    申请号:CN202210094738.3

    申请日:2022-01-26

    Inventor: 俞俊 张欣

    Abstract: 本发明公开了一种基于面向对象的双流注意力网络的视频问答方法。使用双流机制来表示视频的视觉内容,其中一个流为前景对象的静态外观流,另一个流为前景对象的动态行为流。在每个流中,对象的特征既包括对象本身的特征,还包括对象的时空编码和对象所在场景的上下文信息特征。在后续的图卷积操作进行深层特征提取的时候可以探索到对象之间的相对时空关系与上下文感知关系。同时,使用双流机制解决了此前视频问答模型只考虑对象静态特征而缺乏对动态信息分析的问题。本发明提高了对模态内交互和模态间语义对齐的探索能力,在相关视频问答数据集上取得了较好的结果。

    一种基于分层特征表示的端到端目标跟踪方法

    公开(公告)号:CN108830170B

    公开(公告)日:2022-03-18

    申请号:CN201810510226.4

    申请日:2018-05-24

    Abstract: 本发明公开了一种基于分层特征表示的端到端目标跟踪方法。本发明包括以下步骤:1、对视频帧数据进行处理得到输入图像对并提取特征,2、图像对的分层特征表示与对图像对特征进行互相关操作。3、对分层的互相关操作得到的响应图,通过加权融合的方式来平衡形态特征和语义特征得到最终响应图。4、模型训练,利用反向传播算法训练神经网络参数。本发明提出一种针对目标跟踪的神经网络模型,特别是提出一种基于全卷积分层特征融合表示的网络结构,并且获得了目前在目标跟踪领域中拥有比较有竞争力的效果。

    基于深度卷积神经网络的内窥镜图像肠道出血检测方法

    公开(公告)号:CN106910184B

    公开(公告)日:2020-10-09

    申请号:CN201710023643.1

    申请日:2017-01-12

    Inventor: 俞俊 高飞 李攀鹏

    Abstract: 本发明公开了一种基于深度卷积神经网络的内窥镜图像肠道出血检测方法。本发明步骤如下:在训练网络的过程中,首先将出血图像和不出血图像分别进行旋转、亮度调节、高斯模糊、加泊松噪声四种变换,然后变换后的图像和原始图像一起构成新数据集;其次在训练网络的过程中,复制所有出血图像,使得出血图像和不出血图像数量相等,从而得到扩增数据集;然后训练三个深度卷积神经网络,得到三个非线性映射关系;最后依据得到的三个深度卷积神经网络做内窥镜图像肠道出血检测,得到三个检测结果,然后根据多数投票规则,得到最终的检测结果。本发明不仅提高了内窥镜肠道出血检测的准确率,同时能够检测不理想环境下得到的图像,能够达到实时要求。

    一种用于美学质量评价的构图表征学习方法

    公开(公告)号:CN111507941A

    公开(公告)日:2020-08-07

    申请号:CN202010214893.5

    申请日:2020-03-24

    Inventor: 俞俊 高飞 尚梅梅

    Abstract: 本发明公开了一种用于美学质量评价的构图表征学习方法。本发明步骤如下:步骤(1)数据预处理,将所有数据集的图片经过调整尺寸和裁剪的操作缩放到统一大小;步骤(2)特征提取及全连接图构建,分别对两个预训练的Moblinet v2进行微调构成全局特征提取网络和构图特征提取网络,分别用来提取全局特征和构图特征;利用提取出来的构图特征构建全连接图;步骤(3)全局特征与构图特征相融合,将提取出来的全局特征与构图特征输入门控单元进行特征融合,获取融合特征;步骤(4)美学分数预测以及准确率度量。本发明提出了利用构图特征构建全连接图并与全局特征融合,而且获得了目前图片美学质量评价中的最好效果。

    一种降低大规模分布式机器学习系统能耗的方法

    公开(公告)号:CN109271015B

    公开(公告)日:2020-07-24

    申请号:CN201811177821.7

    申请日:2018-10-10

    Abstract: 本发明公开了一种降低大规模分布式机器学习系统能耗的方法。本发明通过分类器对分布式机器学习系统的负载进行分类识别、状态预测,并通过减少分布式参数服务器间的通信加速任务运行来降低整个分布式机器学习系统的能耗。本发明的方法包含两部分:机器学习负载预测与类型识别方法、分布式机器学习节点间参数“懒同步”机制。本发明通过只将显著更新传递到远程数据中心来减少广域网通信的参数同步机制可以有效减少系统等待时长,加快机器学习收敛速率。对机器学习负载的预测和类型的判别有助于提高工作机的利用率,避免大量工作机开启后处于闲置状态。以上方法缩短了机器学习任务的执行时间,提高了工作机利用率,大大降低了系统能耗。

    一种基于模态内间协同多线性池化的视频时序定位方法

    公开(公告)号:CN111368870A

    公开(公告)日:2020-07-03

    申请号:CN201911063010.9

    申请日:2019-10-31

    Inventor: 余宙 俞俊 宋怡君

    Abstract: 本发明公开了一种基于模态内间协同多线性池化的视频时序定位方法。本发明包括以下步骤:1、对视频和文本数据进行数据预处理,提取特征。2、通过模态内间协同多线性池化模块或泛化的模态内间协同多线性池化模块将视频和文本进行特征融合。3、基于视频时序定位任务的神经网络结构。4、模型训练,将多任务损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对视频时序定位的深度神经网络,特别是提出一种对视频-文本的数据进行跨模态融合的模块,充分利用各模态的深层次特征,由此模块延伸出一种同时对视频时序信息的交互方法,提高了扩模态特征的表达能力,并且在视频时序定位领域中的获得较好效果。

    基于生成对抗网络的人脸匿名隐私保护方法

    公开(公告)号:CN111242837A

    公开(公告)日:2020-06-05

    申请号:CN202010006768.5

    申请日:2020-01-03

    Abstract: 本发明提供一种基于生成对抗网络的人脸匿名隐私保护方法。本发明首先对人脸图像数据预处理;然后构建生成对抗网络结构;再建立人脸区域匿名的目标函数;然后建立场景内容区域保留的目标函数;随后进行人脸匿名与场景保留的目标函数的结合;最后采用公开数据集进行训练及测试,输出最终结果。本方法对图像中人脸区域进行合成脸的替换而达到人脸匿名的效果,相对以往的马赛克遮挡的方法更高效并且在视觉上更友好。本发明方法具有高效性与实用性,对人物图像的隐私保护更高效和美观。

Patent Agency Ranking