一种基于长短时记忆网络变体的图像描述生成方法

    公开(公告)号:CN111368898B

    公开(公告)日:2022-10-25

    申请号:CN202010129973.0

    申请日:2020-02-28

    Applicant: 同济大学

    Inventor: 王瀚漓 杨龙雨

    Abstract: 本发明涉及一种基于长短时记忆网络变体的图像描述生成方法,该方法利用一图像描述模型生成待识别图像的图像描述,所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块,所述卷积神经网络获得待识别图像的初始图像特征,所述图像特征编码模块对初始图像特征进行处理,所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入,所述描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。与现有技术相比,本发明具有能显著提升图像描述的质量和准确性等优点。

    一种基于元学习的增量小样本目标检测方法

    公开(公告)号:CN112329827B

    公开(公告)日:2022-08-23

    申请号:CN202011154301.1

    申请日:2020-10-26

    Applicant: 同济大学

    Inventor: 王瀚漓 程孟

    Abstract: 本发明涉及一种基于元学习的增量小样本目标检测方法,包括以下步骤:1)构建增量小样本目标检测模型,该模型包括特征提取器、目标定位器以及元学习器;2)对增量小样本目标检测模型进行训练;3)根据训练好的增量小样本目标检测模型进行新目标定位和分类。与现有技术相比,本发明具有样本需求少、克服遗忘、保护数据隐私等优点。

    一种基于双流分层相似性推理的图像文本匹配方法

    公开(公告)号:CN114863135A

    公开(公告)日:2022-08-05

    申请号:CN202210399762.8

    申请日:2022-04-15

    Applicant: 同济大学

    Inventor: 王瀚漓 陈冉

    Abstract: 本发明涉及一种基于双流分层相似性推理的图像文本匹配方法,包括以下步骤:1)特征编码步骤:给定成对的图像和文本,分别获取图像和文本对应的特征编码;2)局部相似性计算步骤:同时计算图像到文本局部相似性表示集和文本到图像局部相似性表示集;3)全局相似性计算步骤:将图像到文本局部相似性表示集输入分层相似性推理网络中获得图像到文本全局相似性表示,将文本到图像局部相似性表示集输入全局平均池化层中获得文本到图像全局相似性表示;4)双流相似性融合步骤:对图像到文本全局相似性表示与文本到图像全局相似性表示进行求和获得图像文本相似性表示。与现有技术相比,本发明具有匹配精度高、信息采用完全、操作方便快捷等优点。

    一种基于多尺度空间和上下文信息融合的图像压缩方法

    公开(公告)号:CN114792347A

    公开(公告)日:2022-07-26

    申请号:CN202210224174.0

    申请日:2022-03-09

    Applicant: 同济大学

    Inventor: 王瀚漓 刘自毅

    Abstract: 本发明涉及一种基于多尺度空间和上下文信息融合的图像压缩方法,该方法包括以下步骤:1)构建基于多尺度空间和上下文信息融合的图像压缩模型,通过主编码器从原始图像中提取隐藏特征,并采用多尺度信息融合模块减少向前传播有效信息的损失;2)超先验模块将超先验信息和多尺度上下文信息结合,获取三个高斯函数的参数及权重,以权重相加后得到高斯混合模型得到隐藏特征的概率分布;3)基于隐藏特征的概率分布,算数编码器对隐藏特征进行编码和解码;4)主解码器将隐藏特征重构成为图片,完成图像压缩。与现有技术相比,本发明能够实现在压缩码率更低的情况下,更加优秀的图像重构质量。

    一种基于层级外部语义指导的图像故事生成方法

    公开(公告)号:CN114186055A

    公开(公告)日:2022-03-15

    申请号:CN202111352215.6

    申请日:2021-11-16

    Abstract: 本发明涉及一种基于层级外部语义指导的图像故事生成方法,包括以下步骤:提取图像特征,对所述图像特征进行循环编码,获得视频嵌入向量;将图像作为经训练的图像‑话题模型的输入,获得语义嵌入向量,所述图像‑话题模型基于外部预训练的话题BERT模型获得的话题向量训练获得,所述语义嵌入向量作为故事生成过程的单词级别的语义约束;将所述视频嵌入向量和语义嵌入向量共同输入一经训练的协同注意力模型中,解码生成故事,所述协同注意力模型训练过程中以基于外部预训练的话题BERT模型获得的句向量作为句子级别的语义约束。与现有技术相比,本发明具有提高生成故事的准确性和连贯性等优点。

    一种面向视频的三流式人体运动行为空间域检测方法

    公开(公告)号:CN109284667B

    公开(公告)日:2021-09-03

    申请号:CN201810835063.7

    申请日:2018-07-26

    Applicant: 同济大学

    Inventor: 王瀚漓 吴雨唐

    Abstract: 本发明涉及一种面向视频的三流式人体运动行为空间域检测方法,包括以下步骤:输入准备步骤,获取输入视频,根据原图获取对应的光流和人体语义分割图,形成三流式输入;行为检测步骤,在每个时间步上,将RGB流、Flow流和Pose流经各自流上的检测器进行检测,得到检测结果,所述检测结果包括分类得分和检测小管回归值;三流融合步骤,对三条流上的分类得分进行不平等权重融合,获得融合得分,并以原图的检测小管回归值作为融合回归值,并结合所述融合得分与融合回归值获得每个时间步的行为检测小管;行为管构建步骤,连接每个时间步的行为检测小管,构建最终视频行为检测管。与现有技术相比,本发明具有检测速度快、检测准确度高等优点。

    一种基于长短时记忆网络变体的视频描述生成方法

    公开(公告)号:CN111818397A

    公开(公告)日:2020-10-23

    申请号:CN202010602795.9

    申请日:2020-06-29

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于长短时记忆网络变体的视频描述生成方法,包括以下步骤:1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;2)输入待描述的视频,通过卷积神经网络获取初始视频特征;3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征;4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子。与现有技术相比,本发明具有兼顾关键帧特征提取和全局特征提取、提升视频描述的质量和准确性等优点。

    基于注意力金字塔图网络的图像视觉关系指代定位方法

    公开(公告)号:CN111241326A

    公开(公告)日:2020-06-05

    申请号:CN201911370245.2

    申请日:2019-12-26

    Applicant: 同济大学

    Inventor: 王瀚漓 朱健

    Abstract: 本发明涉及一种基于注意力金字塔图网络的图像视觉关系指代定位方法,该方法通过一注意力金字塔图网络模型对将输入图片进行处理,获得相应图像视觉关系指代实体定位图,实现指代定位;所述注意力金字塔图网络模型包括注意力特征金字塔网络和关系传导图网络,其中,所述注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图,所述关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。与现有技术相比,本发明具有定位精度高、鲁棒性高等优点。

    一种基于事实转移的情感嵌入视频描述方法

    公开(公告)号:CN110519653A

    公开(公告)日:2019-11-29

    申请号:CN201910659357.3

    申请日:2019-07-22

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于事实转移的情感嵌入视频描述方法,该方法提取待描述视频的视频帧特征,通过一事实转移的情感嵌入模型生成待描述视频的描述语句,所述事实转移的情感嵌入模型包括事实获取模块和情感获取模块,所述事实获取模块和情感获取模块同时参与待描述视频的语句生成,并利用加权概率融合方式逐个生成描述语句中的单词。与现有技术相比,本发明具有视频描述更加准确、情感更加丰富等优点。

    一种面向大规模多媒体检索的分布式异构并行计算系统

    公开(公告)号:CN104794194B

    公开(公告)日:2018-10-26

    申请号:CN201510186094.0

    申请日:2015-04-17

    Applicant: 同济大学

    Inventor: 王瀚漓 肖波

    Abstract: 本发明涉及一种面向大规模多媒体检索的分布式异构并行计算系统,分布式异构计算机集群包括多个计算节点,每个计算节点中包括一种或多种类型的处理器,包括:性能估计模块,用于实时监测并更新不同计算模块在不同处理器上的计算性能;数据切分模块,用于根据用户提供的输入数据读写函数和性能估计模块的监测结果对输入的计算任务进行切分;分级动态调度模块,用于对切分后的计算任务进行调度及负载均衡处理;CHCF算法工具库,用于实现多种多媒体检索算法。与现有技术相比,本发明具有降低多媒体检索应用编写难度、提高分布式异构计算系统效率等优点。

Patent Agency Ranking