一种基于区域恰可察觉失真的感知视频编码方法

    公开(公告)号:CN110062234B

    公开(公告)日:2023-03-28

    申请号:CN201910356506.9

    申请日:2019-04-29

    Applicant: 同济大学

    Inventor: 王瀚漓 张鑫宇

    Abstract: 本发明涉及一种基于区域恰可察觉失真的感知视频编码方法,该方法包括:获取待压缩视频每帧图像的所有图像块,通过一训练好的JND预测模型获得所述图像块的预测JND阈值,基于目标码率及所述预测JND阈值进行感知冗余去除,得到最优量化参数,基于所述最优量化参数实现感知视频编码。在维持视频主观感知质量不变的约束下,在任意目标码率的条件下,本发明实现了将码率节省最大化的功能,与现有技术相比,具有低复杂度、高鲁棒性与高效率等优点。

    一种面向人机混合视觉的视频压缩方法

    公开(公告)号:CN115460415A

    公开(公告)日:2022-12-09

    申请号:CN202211030454.4

    申请日:2022-08-26

    Applicant: 同济大学

    Inventor: 王瀚漓 伊晓凯

    Abstract: 本发明涉及一种面向人机混合视觉的视频压缩方法,该方法包括以下步骤:1)视频压缩网络获取待压缩视频序列通过编码器进行编码,将其压缩成编码码流;2)所述的编码码流进入下游任务处理网络,若面向人类视觉需求,进入3),若用于机器视觉分析,进入4);3)人类视觉分支模块中解码器接收编码码流将其解码成视频,经视频增强后输出;4)机器视觉分支模块中解码器接收编码码流对其解码生成视频,根据视觉任务分析视频,并输出分析结果。与现有技术相比,本发明可以同时满足人类视觉和机器视觉的需求,并且极大提升了视频压缩效率、可移植性强。

    一种视觉常识推理方法、装置及存储介质

    公开(公告)号:CN115344675A

    公开(公告)日:2022-11-15

    申请号:CN202210735418.1

    申请日:2022-06-27

    Applicant: 同济大学

    Inventor: 王瀚漓 朱健

    Abstract: 本发明涉及一种视觉常识推理方法、装置及存储介质,所述方法包括以下步骤:获取待推理的图像区域,以及所述图像区域对应的问题文本和候选答案文本,以所述图像区域、图像区域对应的问题文本和候选答案文本作为输入,通过一经训练的视觉常识推理模型获得推理预测结果;其中,所述视觉常识推理模型包括:异构图构建层,用于根据所述图像区域、图像区域对应的问题文本和候选答案文本构建答案‑视觉异构图和答案‑问题异构图;异构图更新层,采用结构敏感图转换器网络,基于所述答案‑视觉异构图和答案‑问题异构图进行异构图的演化,获得推理序列特征;分类层,采用评分池化机制获得推理预测结果。与现有技术相比,本发明具有更高的推理准确性。

    一种基于时空胶囊网络的视频行为检测方法

    公开(公告)号:CN112906549B

    公开(公告)日:2022-10-25

    申请号:CN202110177236.2

    申请日:2021-02-07

    Applicant: 同济大学

    Inventor: 王瀚漓 吴雨唐

    Abstract: 本发明涉及一种基于时空胶囊网络的视频行为检测方法,包括以下步骤:1)特征提取:将给定输入视频分为多个包含帧数相等的帧序列,在每个时间步对每个帧序列分别提取2D特征和3D特征,并将两种特征进行整合,构造包含视频信息的互补时空特征;2)行为分类:构建基于胶囊网络的分类子网,对互补时空特征进行行为理解,输出类别胶囊,具有最大激活值的类别胶囊对应的行为类别即为预测类别;3)行为定位:构建定位子网,并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图,在重构过程中,胶囊特征和2D特征通过跳跃连接的方式调整定位结果。与现有技术相比,本发明具有检测精度高、泛化能力强、训练速度快等优点。

    基于图片自对称性人群计数网络的人群计数方法及装置

    公开(公告)号:CN112861697B

    公开(公告)日:2022-10-25

    申请号:CN202110149554.8

    申请日:2021-02-03

    Applicant: 同济大学

    Inventor: 王瀚漓 王书蘅

    Abstract: 本发明涉及一种基于图片自对称性人群计数网络的人群计数方法及装置,该方法包括以下步骤:1)采用人群图像构建数据集,对数据集中的图像进行分割、镜像处理和数据增强处理,并将数据集划分为训练集和测试集,采用训练集通过高斯核函数生成人群密度基准图;2)构建人群计数网络模型,基于图片自对称的性质,以训练集和人群密度基准图作为输入对人群计数网络模型进行训练;3)将待预测的人群图像输入训练后的人群计数网络模型,获得人群密度估计图,并通过对人群密度估计图中所有像素值进行求和获得该人群图像中人的数量。与现有技术相比,本发明在不增加网络模型复杂度、计算量和推理时间的情况下得到更精确的结果,具有更强的鲁棒性。

    一种基于长短时记忆网络变体的视频描述生成方法

    公开(公告)号:CN111818397B

    公开(公告)日:2021-10-08

    申请号:CN202010602795.9

    申请日:2020-06-29

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于长短时记忆网络变体的视频描述生成方法,包括以下步骤:1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;2)输入待描述的视频,通过卷积神经网络获取初始视频特征;3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征;4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子。与现有技术相比,本发明具有兼顾关键帧特征提取和全局特征提取、提升视频描述的质量和准确性等优点。

    基于多尺度融合的遮挡人体姿势识别方法

    公开(公告)号:CN112651294A

    公开(公告)日:2021-04-13

    申请号:CN202011225198.5

    申请日:2020-11-05

    Applicant: 同济大学

    Abstract: 本发明公开了一种基于多尺度融合的遮挡人体姿势识别方法,以视频中人体姿态识别为背景,从检测框回归和关键点识别的理论和方法开展研究。首先,在检测框回归阶段,引入惩罚机制训练检测框自动靠近既定目标而远离非目标物体。其次,基于检测框识别结果,使基于级联金字塔的网络架构,采用多尺度特征融合学习更丰富的特征。最后,在关键点识别阶段,提出了基于保持高分辨率的定位算法,同时使用在线难例挖掘策略显式处理困难节点。本发明通过多尺度特征融合优化遮挡人体姿势识别算法,有效提升了遮挡关键点识别的准确性,为视频中人体姿势识别提供有效的方法和新的研究思路。本发明将丰富和拓展机器学习理论和方法。

    一种基于元学习的增量小样本目标检测方法

    公开(公告)号:CN112329827A

    公开(公告)日:2021-02-05

    申请号:CN202011154301.1

    申请日:2020-10-26

    Applicant: 同济大学

    Inventor: 王瀚漓 程孟

    Abstract: 本发明涉及一种基于元学习的增量小样本目标检测方法,包括以下步骤:1)构建增量小样本目标检测模型,该模型包括特征提取器、目标定位器以及元学习器;2)对增量小样本目标检测模型进行训练;3)根据训练好的增量小样本目标检测模型进行新目标定位和分类。与现有技术相比,本发明具有样本需求少、克服遗忘、保护数据隐私等优点。

    一种基于长短时记忆网络变体的图像描述生成方法

    公开(公告)号:CN111368898A

    公开(公告)日:2020-07-03

    申请号:CN202010129973.0

    申请日:2020-02-28

    Applicant: 同济大学

    Inventor: 王瀚漓 杨龙雨

    Abstract: 本发明涉及一种基于长短时记忆网络变体的图像描述生成方法,该方法利用一图像描述模型生成待识别图像的图像描述,所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块,所述卷积神经网络获得待识别图像的初始图像特征,所述图像特征编码模块对初始图像特征进行处理,所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入,所述描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。与现有技术相比,本发明具有能显著提升图像描述的质量和准确性等优点。

    一种基于增强型三流式架构的视频行为检测方法

    公开(公告)号:CN110633645A

    公开(公告)日:2019-12-31

    申请号:CN201910764109.5

    申请日:2019-08-19

    Applicant: 同济大学

    Inventor: 王瀚漓 吴雨唐

    Abstract: 本发明涉及一种基于增强型三流式架构的视频行为检测方法,包括以下步骤:数据生成步骤,获取输入视频,获取光流图和人体姿态图;行为检测步骤,以原图像、光流图和人体姿态图作为增强型外观流的输入,以光流图作为动势流的输入,以人体姿态图作为姿态流的输入,每个时间步上,工作流对相应输入进行处理,生成检测结果;三流融合步骤,对三条工作流的类别得分进行扩展加权融合,得到融合得分,取增强型外观流的坐标回归值作为融合回归值,得到一组带类别得分的回归后行为检测小管;行为管构建步骤,将每个时间步的行为检测小管随时间连接,构建输入视频的3D行为检测管。与现有技术相比,本发明具有分类准确率高、定位精确、操作方便快捷等优点。

Patent Agency Ranking