基于知识增强注意力网络和组级语义的故事描述生成方法

    公开(公告)号:CN113515951B

    公开(公告)日:2022-07-05

    申请号:CN202110812701.5

    申请日:2021-07-19

    Applicant: 同济大学

    Inventor: 王瀚漓 李腾鹏

    Abstract: 本发明涉及一种基于知识增强注意力网络和组级语义的故事描述生成方法,包括以下步骤:1)提取图像的视觉特征和文本特征;2)基于知识增强注意力网络对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘,获取区域注意力增强的文本信息和视觉特征;3)基于构建组级语义模块对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联,获取全局视觉语义聚合特征;4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征,输入多模态故事解码网络中生成具备可推理和连贯性的故事描述。与现有技术相比,本发明具有语句描述更加精准、场景想象更加丰富、段落衔接更加流畅等优点。

    一种基于时空胶囊网络的视频行为检测方法

    公开(公告)号:CN112906549A

    公开(公告)日:2021-06-04

    申请号:CN202110177236.2

    申请日:2021-02-07

    Applicant: 同济大学

    Inventor: 王瀚漓 吴雨唐

    Abstract: 本发明涉及一种基于时空胶囊网络的视频行为检测方法,包括以下步骤:1)特征提取:将给定输入视频分为多个包含帧数相等的帧序列,在每个时间步对每个帧序列分别提取2D特征和3D特征,并将两种特征进行整合,构造包含视频信息的互补时空特征;2)行为分类:构建基于胶囊网络的分类子网,对互补时空特征进行行为理解,输出类别胶囊,具有最大激活值的类别胶囊对应的行为类别即为预测类别;3)行为定位:构建定位子网,并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图,在重构过程中,胶囊特征和2D特征通过跳跃连接的方式调整定位结果。与现有技术相比,本发明具有检测精度高、泛化能力强、训练速度快等优点。

    基于图片自对称性人群计数网络的人群计数方法及装置

    公开(公告)号:CN112861697A

    公开(公告)日:2021-05-28

    申请号:CN202110149554.8

    申请日:2021-02-03

    Applicant: 同济大学

    Inventor: 王瀚漓 王书蘅

    Abstract: 本发明涉及一种基于图片自对称性人群计数网络的人群计数方法及装置,该方法包括以下步骤:1)采用人群图像构建数据集,对数据集中的图像进行分割、镜像处理和数据增强处理,并将数据集划分为训练集和测试集,采用训练集通过高斯核函数生成人群密度基准图;2)构建人群计数网络模型,基于图片自对称的性质,以训练集和人群密度基准图作为输入对人群计数网络模型进行训练;3)将待预测的人群图像输入训练后的人群计数网络模型,获得人群密度估计图,并通过对人群密度估计图中所有像素值进行求和获得该人群图像中人的数量。与现有技术相比,本发明在不增加网络模型复杂度、计算量和推理时间的情况下得到更精确的结果,具有更强的鲁棒性。

    一种基于位置编码融合的密集型视频描述方法

    公开(公告)号:CN111814844A

    公开(公告)日:2020-10-23

    申请号:CN202010563286.X

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 杨思璇

    Abstract: 本发明涉及一种基于位置编码融合的密集型视频描述方法,该方法对待描述视频进行序列特征图提取,计算视频帧序列的绝对位置编码及上下文之间的相对位置编码,在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码,计算图像相似度,对序列特征图进行重编码,基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列,基于注意力机制对多个所述子事件特征图序列按序解码成自然语言描述。与现有技术相比,本发明具有事件定位能力强、描述准确性高等优点。

    一种基于区域块级JND预测的感知图像压缩方法

    公开(公告)号:CN111614962A

    公开(公告)日:2020-09-01

    申请号:CN202010313187.6

    申请日:2020-04-20

    Applicant: 同济大学

    Inventor: 王瀚漓 田涛

    Abstract: 本发明涉及一种基于区域块级JND预测的感知图像压缩方法,包括以下步骤:1)根据数据集中的图像和对应的JND信息,利用大津阈值方法,生成区域块级JND值;2)根据生成的区域块级JND值,建立基于CNN的区域块级JND预测模型;3)将测试图像在多个固定的QF值下进行压缩,得到对应的多张失真图像,将全部失真图像分割为多个不重叠的区域块,并预测每个区域块的JND标签,最后采用标签处理方法获取每个区域块最终的JND值;4)根据目标压缩QF值和每个区域块最终的JND值,对测试图像进行预处理操作,选取区域块感知QF值中最大的作为压缩参数,并采用JPEG压缩预处理后的测试图像。与现有技术相比,本发明具有自适应预测、压缩质量好、压缩效率高等优点。

    基于多智能体边界感知网络的自然语言视频片段检索方法

    公开(公告)号:CN111198966A

    公开(公告)日:2020-05-26

    申请号:CN201911332422.8

    申请日:2019-12-22

    Applicant: 同济大学

    Inventor: 王瀚漓 孙晓阳

    Abstract: 本发明涉及一种基于多智能体边界感知网络的自然语言视频片段检索方法,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。与现有技术相比,本发明在实现高精度检索的条件下仍然保持参数量不会大幅增大,并且可以凭借边界感知能力更能满足现实生活中具有众多复杂场景的视频片段检索需求。

    一种基于多尺度扩张卷积网络的人群密度估计方法及装置

    公开(公告)号:CN110674704A

    公开(公告)日:2020-01-10

    申请号:CN201910836487.X

    申请日:2019-09-05

    Applicant: 同济大学

    Inventor: 王瀚漓 王书蘅

    Abstract: 本发明涉及一种基于多尺度扩张卷积网络的人群密度估计方法及装置,所述估计方法构建的卷积网络模型包括网络前端和网络后端,所述网络前端包括VGG-16网络前10层卷积层和3层max-pooling层,所述网络后端包括依次连接的多尺度扩展卷积模块和降维卷积层组,所述多尺度扩展卷积模块包括四个分支卷积层和与各分支卷积层相连的concat层,所述四个分支卷积层为并列的1个1×1卷积层和3个扩张率分别为1、2和3的3×3卷积层。与现有技术相比,本发明具有检测结果精确、计算量小等优点。

    一种基于区域恰可察觉失真的感知视频编码方法

    公开(公告)号:CN110062234A

    公开(公告)日:2019-07-26

    申请号:CN201910356506.9

    申请日:2019-04-29

    Applicant: 同济大学

    Inventor: 王瀚漓 张鑫宇

    Abstract: 本发明涉及一种基于区域恰可察觉失真的感知视频编码方法,该方法包括:获取待压缩视频每帧图像的所有图像块,通过一训练好的JND预测模型获得所述图像块的预测JND阈值,基于目标码率及所述预测JND阈值进行感知冗余去除,得到最优量化参数,基于所述最优量化参数实现感知视频编码。在维持视频主观感知质量不变的约束下,在任意目标码率的条件下,本发明实现了将码率节省最大化的功能,与现有技术相比,具有低复杂度、高鲁棒性与高效率等优点。

    一种面向视频的三流式人体运动行为空间域检测方法

    公开(公告)号:CN109284667A

    公开(公告)日:2019-01-29

    申请号:CN201810835063.7

    申请日:2018-07-26

    Applicant: 同济大学

    Inventor: 王瀚漓 吴雨唐

    Abstract: 本发明涉及一种面向视频的三流式人体运动行为空间域检测方法,包括以下步骤:输入准备步骤,获取输入视频,根据原图获取对应的光流和人体语义分割图,形成三流式输入;行为检测步骤,在每个时间步上,将RGB流、Flow流和Pose流经各自流上的检测器进行检测,得到检测结果,所述检测结果包括分类得分和检测小管回归值;三流融合步骤,对三条流上的分类得分进行不平等权重融合,获得融合得分,并以原图的检测小管回归值作为融合回归值,并结合所述融合得分与融合回归值获得每个时间步的行为检测小管;行为管构建步骤,连接每个时间步的行为检测小管,构建最终视频行为检测管。与现有技术相比,本发明具有检测速度快、检测准确度高等优点。

    一种基于最大相似度匹配的图片检索方法

    公开(公告)号:CN104615676B

    公开(公告)日:2018-08-24

    申请号:CN201510028073.6

    申请日:2015-01-20

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于最大相似度匹配的图片检索方法,包括以下步骤:1)获取训练图片集;2)在多尺度空间上对获取的图片进行特征点检测和描述;3)对步骤2)提取的特征集进行聚类并生成包含k个视觉词汇的视觉字典;4)将步骤2)提取的每个特征映射到与当前特征l2距离最小的视觉词汇上,并将当前特征与相应视觉词汇的归一化残差向量存储在倒排索引结构中,形成查询数据库;5)获取待检索图片,执行步骤2)和4),获得待检索图片的倒排索引结构,根据该倒排索引结构检索查询数据库,基于最大相似度匹配,获得待检索图片的检索结果。与现有技术相比,本发明具有鲁棒性好、计算效率高等优点。

Patent Agency Ranking