一种基于金字塔结构的光流估计方法

    公开(公告)号:CN110176023B

    公开(公告)日:2023-06-02

    申请号:CN201910356481.2

    申请日:2019-04-29

    Applicant: 同济大学

    Inventor: 王瀚漓 孙泽锋

    Abstract: 本发明涉及一种基于金字塔结构的光流估计方法,包括以下步骤:构建空间金字塔孪生网络模型;构建结构金字塔网络模型,结构金字塔的各个层设置至少一个卷积神经网络,从底层到高层,卷积神经网络的数量依次递减;在光流训练集中获取一组图片对和对应的光流标签;采用空间金字塔孪生网络模型对图片对进行多尺度特征提取和下采样,并将提取的特征对输入到结构金字塔网络模型对应层的卷积神经网络中;参照光流标签,同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调;在光流测试集上,使用该空间金字塔孪生网络模型和结构金字塔网络模型,获得光流测试集的预测光流场。与现有技术相比,本发明具有准确度高、效率高等优点。

    一种基于图注意和非对称卷积网络的图像压缩模型

    公开(公告)号:CN115512199A

    公开(公告)日:2022-12-23

    申请号:CN202211071956.1

    申请日:2022-09-01

    Applicant: 同济大学

    Inventor: 王瀚漓 唐梽森

    Abstract: 基于图注意和非对称卷积网络的图像压缩模型,主编码器:在数据集中,给定经数据增强和被裁剪后大小为256×256的图像作为输入x;接着使用卷积神经网络变换输入图像的通道,再将卷积神经网络的输出依次通过非对称卷积网络、下采样因子为2的下采样网络和信息流动注意力网络进行特征提取和采样;量化器Q:量化器旨在解决训练过程中不可微导致梯度无法反传的问题;超先验编码器:其目的是为了提取主编码器输出特征y的边信息z,以进一步捕捉冗余信息;超先验解码器:其目的是对算数解码AD后的边信息解码,以便预测量化后的特征的分布参9数;熵模型:其目的是估计的概率分布参数以计算码率;主解码器:其目的是为了对进行解码,重建出解码图像。

    一种基于多概念知识挖掘的视频描述生成方法及存储介质

    公开(公告)号:CN114743143A

    公开(公告)日:2022-07-12

    申请号:CN202210375021.6

    申请日:2022-04-11

    Applicant: 同济大学

    Inventor: 王瀚漓 张沁宇

    Abstract: 本发明涉及一种基于多概念知识挖掘的视频描述生成方法及存储介质,所述方法包括:获取待处理的输入视频,对所述输入视频进行视觉特征和语义标签提取,并对所述语义标签进行优化,获得先验语义标签,以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入,获得对应的描述结果,其中,所述视觉特征包括2D特征和3D特征;所述视频描述生成模型训练时,从训练样本中进行视频‑文本知识、视频‑视频知识和文本‑文本知识的挖掘,优化视频描述生成模型中多头自注意力层的参数和词嵌入层的参数。与现有技术相比,本发明具有主题相关度强、语义丰富度高、训练速度快等优点。

    基于知识增强注意力网络和组级语义的故事描述生成方法

    公开(公告)号:CN113515951B

    公开(公告)日:2022-07-05

    申请号:CN202110812701.5

    申请日:2021-07-19

    Applicant: 同济大学

    Inventor: 王瀚漓 李腾鹏

    Abstract: 本发明涉及一种基于知识增强注意力网络和组级语义的故事描述生成方法,包括以下步骤:1)提取图像的视觉特征和文本特征;2)基于知识增强注意力网络对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘,获取区域注意力增强的文本信息和视觉特征;3)基于构建组级语义模块对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联,获取全局视觉语义聚合特征;4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征,输入多模态故事解码网络中生成具备可推理和连贯性的故事描述。与现有技术相比,本发明具有语句描述更加精准、场景想象更加丰富、段落衔接更加流畅等优点。

    一种基于时空胶囊网络的视频行为检测方法

    公开(公告)号:CN112906549A

    公开(公告)日:2021-06-04

    申请号:CN202110177236.2

    申请日:2021-02-07

    Applicant: 同济大学

    Inventor: 王瀚漓 吴雨唐

    Abstract: 本发明涉及一种基于时空胶囊网络的视频行为检测方法,包括以下步骤:1)特征提取:将给定输入视频分为多个包含帧数相等的帧序列,在每个时间步对每个帧序列分别提取2D特征和3D特征,并将两种特征进行整合,构造包含视频信息的互补时空特征;2)行为分类:构建基于胶囊网络的分类子网,对互补时空特征进行行为理解,输出类别胶囊,具有最大激活值的类别胶囊对应的行为类别即为预测类别;3)行为定位:构建定位子网,并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图,在重构过程中,胶囊特征和2D特征通过跳跃连接的方式调整定位结果。与现有技术相比,本发明具有检测精度高、泛化能力强、训练速度快等优点。

    基于图片自对称性人群计数网络的人群计数方法及装置

    公开(公告)号:CN112861697A

    公开(公告)日:2021-05-28

    申请号:CN202110149554.8

    申请日:2021-02-03

    Applicant: 同济大学

    Inventor: 王瀚漓 王书蘅

    Abstract: 本发明涉及一种基于图片自对称性人群计数网络的人群计数方法及装置,该方法包括以下步骤:1)采用人群图像构建数据集,对数据集中的图像进行分割、镜像处理和数据增强处理,并将数据集划分为训练集和测试集,采用训练集通过高斯核函数生成人群密度基准图;2)构建人群计数网络模型,基于图片自对称的性质,以训练集和人群密度基准图作为输入对人群计数网络模型进行训练;3)将待预测的人群图像输入训练后的人群计数网络模型,获得人群密度估计图,并通过对人群密度估计图中所有像素值进行求和获得该人群图像中人的数量。与现有技术相比,本发明在不增加网络模型复杂度、计算量和推理时间的情况下得到更精确的结果,具有更强的鲁棒性。

    一种基于位置编码融合的密集型视频描述方法

    公开(公告)号:CN111814844A

    公开(公告)日:2020-10-23

    申请号:CN202010563286.X

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 杨思璇

    Abstract: 本发明涉及一种基于位置编码融合的密集型视频描述方法,该方法对待描述视频进行序列特征图提取,计算视频帧序列的绝对位置编码及上下文之间的相对位置编码,在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码,计算图像相似度,对序列特征图进行重编码,基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列,基于注意力机制对多个所述子事件特征图序列按序解码成自然语言描述。与现有技术相比,本发明具有事件定位能力强、描述准确性高等优点。

    一种基于区域块级JND预测的感知图像压缩方法

    公开(公告)号:CN111614962A

    公开(公告)日:2020-09-01

    申请号:CN202010313187.6

    申请日:2020-04-20

    Applicant: 同济大学

    Inventor: 王瀚漓 田涛

    Abstract: 本发明涉及一种基于区域块级JND预测的感知图像压缩方法,包括以下步骤:1)根据数据集中的图像和对应的JND信息,利用大津阈值方法,生成区域块级JND值;2)根据生成的区域块级JND值,建立基于CNN的区域块级JND预测模型;3)将测试图像在多个固定的QF值下进行压缩,得到对应的多张失真图像,将全部失真图像分割为多个不重叠的区域块,并预测每个区域块的JND标签,最后采用标签处理方法获取每个区域块最终的JND值;4)根据目标压缩QF值和每个区域块最终的JND值,对测试图像进行预处理操作,选取区域块感知QF值中最大的作为压缩参数,并采用JPEG压缩预处理后的测试图像。与现有技术相比,本发明具有自适应预测、压缩质量好、压缩效率高等优点。

    基于多智能体边界感知网络的自然语言视频片段检索方法

    公开(公告)号:CN111198966A

    公开(公告)日:2020-05-26

    申请号:CN201911332422.8

    申请日:2019-12-22

    Applicant: 同济大学

    Inventor: 王瀚漓 孙晓阳

    Abstract: 本发明涉及一种基于多智能体边界感知网络的自然语言视频片段检索方法,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。与现有技术相比,本发明在实现高精度检索的条件下仍然保持参数量不会大幅增大,并且可以凭借边界感知能力更能满足现实生活中具有众多复杂场景的视频片段检索需求。

    一种基于多尺度扩张卷积网络的人群密度估计方法及装置

    公开(公告)号:CN110674704A

    公开(公告)日:2020-01-10

    申请号:CN201910836487.X

    申请日:2019-09-05

    Applicant: 同济大学

    Inventor: 王瀚漓 王书蘅

    Abstract: 本发明涉及一种基于多尺度扩张卷积网络的人群密度估计方法及装置,所述估计方法构建的卷积网络模型包括网络前端和网络后端,所述网络前端包括VGG-16网络前10层卷积层和3层max-pooling层,所述网络后端包括依次连接的多尺度扩展卷积模块和降维卷积层组,所述多尺度扩展卷积模块包括四个分支卷积层和与各分支卷积层相连的concat层,所述四个分支卷积层为并列的1个1×1卷积层和3个扩张率分别为1、2和3的3×3卷积层。与现有技术相比,本发明具有检测结果精确、计算量小等优点。

Patent Agency Ranking