一种基于多尺度空间和上下文信息融合的图像压缩方法

    公开(公告)号:CN114792347B

    公开(公告)日:2025-02-28

    申请号:CN202210224174.0

    申请日:2022-03-09

    Applicant: 同济大学

    Inventor: 王瀚漓 刘自毅

    Abstract: 本发明涉及一种基于多尺度空间和上下文信息融合的图像压缩方法,该方法包括以下步骤:1)构建基于多尺度空间和上下文信息融合的图像压缩模型,通过主编码器从原始图像中提取隐藏特征,并采用多尺度信息融合模块减少向前传播有效信息的损失;2)超先验模块将超先验信息和多尺度上下文信息结合,获取三个高斯函数的参数及权重,以权重相加后得到高斯混合模型得到隐藏特征的概率分布;3)基于隐藏特征的概率分布,算数编码器对隐藏特征进行编码和解码;4)主解码器将隐藏特征重构成为图片,完成图像压缩。与现有技术相比,本发明能够实现在压缩码率更低的情况下,更加优秀的图像重构质量。

    一种基于位置编码融合的密集型视频描述方法

    公开(公告)号:CN111814844B

    公开(公告)日:2023-07-11

    申请号:CN202010563286.X

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 杨思璇

    Abstract: 本发明涉及一种基于位置编码融合的密集型视频描述方法,该方法对待描述视频进行序列特征图提取,计算视频帧序列的绝对位置编码及上下文之间的相对位置编码,在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码,计算图像相似度,对序列特征图进行重编码,基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列,基于注意力机制对多个所述子事件特征图序列按序解码成自然语言描述。与现有技术相比,本发明具有事件定位能力强、描述准确性高等优点。

    一种基于深度学习的带钢表面缺陷检测方法

    公开(公告)号:CN110490842B

    公开(公告)日:2023-07-04

    申请号:CN201910659348.4

    申请日:2019-07-22

    Applicant: 同济大学

    Inventor: 王瀚漓 徐昱韬

    Abstract: 本发明涉及一种基于深度学习的带钢表面缺陷检测方法,该方法通过缺陷判断与缺陷归类双流网络模型提取带钢表面的局部信息,并结合尺度金字塔进行综合分析,得到类热图,最终同时得到缺陷的种类与位置,所述缺陷判断与缺陷归类双流网络模型包括缺陷判断分支和缺陷归类分支。与现有技术相比,本发明具有计算量少、计算效率高、鲁棒性强、标注成本低、精度高、设备成本低等优点。

    一种基于深度LSTM网络的图像描述生成方法

    公开(公告)号:CN106650789B

    公开(公告)日:2023-04-07

    申请号:CN201611022441.7

    申请日:2016-11-16

    Applicant: 同济大学

    Inventor: 王瀚漓 汤鹏杰

    Abstract: 本发明涉及一种基于深度LSTM网络的图像描述生成方法,包括以下步骤:1)提取图像描述数据集中图像的CNN特征并获取与图像对应描述参考句子中单词的嵌入式向量;2)建立双层LSTM网络,结合双层LSTM网络和CNN网络进行序列建模生成多模LSTM模型;3)采用联合训练的方式对多模LSTM模型进行训练;4)逐层增加多模LSTM模型中LSTM网络的层次,每增加一层并进行训练,最终获得逐层多目标优化及多层概率融合的图像描述模型;5)将逐层多目标优化及多层概率融合的图像描述模型中多层LSTM网络中各分支输出的概率分值进行融合,采用共同决策的方式,将概率最大对应的单词输出。与现有技术相比,本发明具有多层次、提高表达能力、有效更新、准确性高等优点。

    基于先验知识的直推式广义零样本视频行为识别方法

    公开(公告)号:CN114926855A

    公开(公告)日:2022-08-19

    申请号:CN202210467166.9

    申请日:2022-04-24

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于先验知识的直推式广义零样本视频行为识别方法,该方法通过一直推式广义零样本视频行为识别模型对待识别视频进行行为类别识别,其中,所述直推式广义零样本视频行为识别模型利用有标记的源数据和无标记的目标数据训练获得,训练过程包括:构建第一模型,在先验数据集上进行先验知识学习,得到参数构建与所述第一模型结构相同的第二模型,以所述参数作为初始化参数,在源数据集上进行源学习,得到参数θs;在所述第二模型上添加标签预测模块,构建获得第三模型,在源数据集和目标数据集上进行直推式学习。与现有技术相比,本发明具有样本需求少、识别准确率等优点。

    一种基于区域块级JND预测的感知图像压缩方法

    公开(公告)号:CN111614962B

    公开(公告)日:2022-06-24

    申请号:CN202010313187.6

    申请日:2020-04-20

    Applicant: 同济大学

    Inventor: 王瀚漓 田涛

    Abstract: 本发明涉及一种基于区域块级JND预测的感知图像压缩方法,包括以下步骤:1)根据数据集中的图像和对应的JND信息,利用大津阈值方法,生成区域块级JND值;2)根据生成的区域块级JND值,建立基于CNN的区域块级JND预测模型;3)将测试图像在多个固定的QF值下进行压缩,得到对应的多张失真图像,将全部失真图像分割为多个不重叠的区域块,并预测每个区域块的JND标签,最后采用标签处理方法获取每个区域块最终的JND值;4)根据目标压缩QF值和每个区域块最终的JND值,对测试图像进行预处理操作,选取区域块感知QF值中最大的作为压缩参数,并采用JPEG压缩预处理后的测试图像。与现有技术相比,本发明具有自适应预测、压缩质量好、压缩效率高等优点。

    一种基于时空超分辨率的视频描述方法及电子设备

    公开(公告)号:CN114549317A

    公开(公告)日:2022-05-27

    申请号:CN202210167971.X

    申请日:2022-02-23

    Applicant: 同济大学

    Inventor: 王瀚漓 曹铨辉

    Abstract: 本发明涉及一种基于时空超分辨率的视频描述方法及电子设备,所述方法基于一视频描述模型实现,包括以下步骤:获取输入视频,对该输入视频进行采样获得包含若干压缩尺寸帧的视频帧序列;通过所述视频描述模型,对所述视频帧序列进行多模态特征提取和特征编码,动态融合编码后的多模态特征,逐步解码生成视频描述语句;其中,所述视频描述模型训练时,从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧,以重构误差和解码预测误差构建损失函数,实现模型训练。与现有技术相比,本发明具有描述丰富准确、泛化能力强、计算开销低等优点。

    一种基于认知的图像理解方法

    公开(公告)号:CN108229565B

    公开(公告)日:2022-04-05

    申请号:CN201810011570.9

    申请日:2018-01-05

    Applicant: 同济大学

    Inventor: 王瀚漓 王含章

    Abstract: 本发明涉及一种基于认知的图像理解方法,所述方法包括:高认知度的神经网络训练模型建立步骤,将待分类图片数据集与图片标签数据集之间进行关联,根据关联的结果对待分类图片数据集内部进行重新分类,将重新分类后的数据集进行深度卷积神经网络训练,得到高认知度的神经网络训练模型;图像理解步骤,将待理解的图片通过高认知度的神经网络训练模型,得到图片对应的标签。与现有技术相比,本发明具有理解准确程度高、更加符合实际情况以及有效缩短图像理解时间等优点。

    基于视觉与主题协同注意力的连贯性故事生成系统及方法

    公开(公告)号:CN113779938A

    公开(公告)日:2021-12-10

    申请号:CN202110931513.4

    申请日:2021-08-13

    Applicant: 同济大学

    Inventor: 王瀚漓 谷金晶

    Abstract: 本发明涉及一种基于视觉与主题协同注意力的连贯性故事生成系统及方法,该方法包括以下步骤:1)提取相册特征向量以及时间动态信息;2)获取每条描述语句的主题概率分布并预测相册中每幅图像中的主题分布信息;3)基于视觉与主题协同注意力生成主题连贯性的图像描述语句;4)通过考虑n‑gram多样性的短语束搜索算法对图像描述语句进行短语束搜索,提高视觉故事叙述表达的准确度和多样性。与现有技术相比,本发明具有增强描述语句的主题连贯性、提高故事本文的表达多样性、优化视觉故事的生成质量等优点。

    基于知识增强注意力网络和组级语义的故事描述生成方法

    公开(公告)号:CN113515951A

    公开(公告)日:2021-10-19

    申请号:CN202110812701.5

    申请日:2021-07-19

    Applicant: 同济大学

    Inventor: 王瀚漓 李腾鹏

    Abstract: 本发明涉及一种基于知识增强注意力网络和组级语义的故事描述生成方法,包括以下步骤:1)提取图像的视觉特征和文本特征;2)基于知识增强注意力网络对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘,获取区域注意力增强的文本信息和视觉特征;3)基于构建组级语义模块对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联,获取全局视觉语义聚合特征;4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征,输入多模态故事解码网络中生成具备可推理和连贯性的故事描述。与现有技术相比,本发明具有语句描述更加精准、场景想象更加丰富、段落衔接更加流畅等优点。

Patent Agency Ranking