-
公开(公告)号:CN117972142A
公开(公告)日:2024-05-03
申请号:CN202410225442.X
申请日:2024-02-29
Applicant: 同济大学
IPC: G06F16/783 , G06F18/22 , G06V10/77 , G06V10/74 , G06V10/82 , G06V10/774
Abstract: 本发明涉及计算机技术领域,尤其是涉及一种基于跨模态分布消偏的视频文本检索方法、装置及存储介质。该方法获取待检索的文本查询和视频集后,利用训练好的视频文本检索模型获取各视频的相似度,将相似度最高的视频作为检索结果,其中,视频文本检索模型包括特征投影层和模态判别层,并利用枢纽正则损失函数进行训练。与现有技术相比,本发明具有有效弥合不同模态之间的鸿沟,提升利用大规模预训练模型进行检索的准确性,提升整个检索系统的性能等优点。
-
公开(公告)号:CN117933474A
公开(公告)日:2024-04-26
申请号:CN202410107889.7
申请日:2024-01-25
Applicant: 同济大学
IPC: G06Q10/04 , G06Q10/0631 , G06Q10/20 , G06F17/15
Abstract: 本发明涉及一种计及渣油加氢装置维护周期的炼厂生产维护协同优化方法,包括:针对炼油厂工艺流程对生产过程进行建模,构建多计划周期的生产计划模型;基于渣油加氢装置的运行状态,构建渣油加氢装置维护计划模型;基于所述生产计划模型和所述渣油加氢装置维护计划模型,以预设的目标函数协同优化求解得到优化后的生产计划和渣油加氢装置维护周期。与现有技术相比,本发明通过协同优化求解得到渣油加氢装置维护周期,能够匹配生产计划的需求,并改善生产效率。
-
公开(公告)号:CN111814843B
公开(公告)日:2024-02-27
申请号:CN202010563278.5
申请日:2020-06-19
Applicant: 同济大学
IPC: G06V10/44 , G06N3/0464 , G06F16/332 , G06V10/82
Abstract: 本发明涉及一种视觉问答系统中图像特征模块端到端训练方法及应用,所述训练方法包括:获取视觉问答模型的初始模型参数;获取训练图像和对应的训练文本序列;对所述训练图像进行图像特征抽取,并对所述训练文本序列进行文本特征提取;对所述图像特征和文本特征进行特征融合,生成融合特征,基于所述融合特征生成输出答案;基于所述输出答案与所述训练图像的初始答案计算答案误差;在所述视觉问答模型的其他部分优化方法不变的前提下,基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。与现有技术相比,本发明具有效果显著、实现简单等优点。
-
公开(公告)号:CN111198966B
公开(公告)日:2023-09-26
申请号:CN201911332422.8
申请日:2019-12-22
Applicant: 同济大学
IPC: G06F16/783
Abstract: 本发明涉及一种基于多智能体边界感知网络的自然语言视频片段检索方法,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。与现有技术相比,本发明在实现高精度检索的条件下仍然保持参数量不会大幅增大,并且可以凭借边界感知能力更能满足现实生活中具有众多复杂场景的视频片段检索需求。
-
公开(公告)号:CN114501034B
公开(公告)日:2023-08-04
申请号:CN202111519451.2
申请日:2021-12-11
Applicant: 同济大学
Abstract: 本发明涉及一种基于离散高斯混合超先验和Mask的图像压缩方法及介质,所述方法包括以下步骤:对待压缩图像进行预处理,获得预处理图像;提取所述预处理图像的特征图,同时基于所述预处理图像的空间特征信息,生成Mask值,将所述特征图和Mask值进行点乘处理,获得隐变量表征;采用多个高斯分布提取隐变量表征的分布情况,生成离散高斯混合超先验值;对所述隐变量表征进行量化,基于所述超先验值对量化后的隐变量表征进行熵编码压缩,获得压缩图像的编码信息;基于所述压缩图像的编码信息解码获得重构图像。与现有技术相比,本发明具有压缩质量较好、图像压缩效率高等优点。
-
公开(公告)号:CN110033008B
公开(公告)日:2023-08-04
申请号:CN201910357364.8
申请日:2019-04-29
Applicant: 同济大学
IPC: G06V10/44 , G06V10/774 , G06V10/764 , G06V10/82 , G06N3/0464
Abstract: 本发明涉及一种基于模态变换与文本归纳的图像描述生成方法,该方法包括以下步骤:1)使用基于卷积神经网络的目标识别模型,将待描述图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征;2)使用第一长短时记忆模型对每个子块的视觉特征进行解码,通过将视觉信息转换为语义信息实现模态变换,生成各子块的文本描述;3)使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取各子块的语义特征;4)使用双向层级长短时记忆模型融合各子块的语义特征,获得融合语义特征;5)以所述融合语义特征作为第三长短时记忆模型的输入,生成待描述图像的文本描述。与现有技术相比,本发明具有准确度高等优点。
-
公开(公告)号:CN110176023B
公开(公告)日:2023-06-02
申请号:CN201910356481.2
申请日:2019-04-29
Applicant: 同济大学
Abstract: 本发明涉及一种基于金字塔结构的光流估计方法,包括以下步骤:构建空间金字塔孪生网络模型;构建结构金字塔网络模型,结构金字塔的各个层设置至少一个卷积神经网络,从底层到高层,卷积神经网络的数量依次递减;在光流训练集中获取一组图片对和对应的光流标签;采用空间金字塔孪生网络模型对图片对进行多尺度特征提取和下采样,并将提取的特征对输入到结构金字塔网络模型对应层的卷积神经网络中;参照光流标签,同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调;在光流测试集上,使用该空间金字塔孪生网络模型和结构金字塔网络模型,获得光流测试集的预测光流场。与现有技术相比,本发明具有准确度高、效率高等优点。
-
公开(公告)号:CN115512199A
公开(公告)日:2022-12-23
申请号:CN202211071956.1
申请日:2022-09-01
Applicant: 同济大学
Abstract: 基于图注意和非对称卷积网络的图像压缩模型,主编码器:在数据集中,给定经数据增强和被裁剪后大小为256×256的图像作为输入x;接着使用卷积神经网络变换输入图像的通道,再将卷积神经网络的输出依次通过非对称卷积网络、下采样因子为2的下采样网络和信息流动注意力网络进行特征提取和采样;量化器Q:量化器旨在解决训练过程中不可微导致梯度无法反传的问题;超先验编码器:其目的是为了提取主编码器输出特征y的边信息z,以进一步捕捉冗余信息;超先验解码器:其目的是对算数解码AD后的边信息解码,以便预测量化后的特征的分布参9数;熵模型:其目的是估计的概率分布参数以计算码率;主解码器:其目的是为了对进行解码,重建出解码图像。
-
公开(公告)号:CN114743143A
公开(公告)日:2022-07-12
申请号:CN202210375021.6
申请日:2022-04-11
Applicant: 同济大学
IPC: G06V20/40 , G06V10/774 , G06V10/764 , G06K9/62 , G06F40/30
Abstract: 本发明涉及一种基于多概念知识挖掘的视频描述生成方法及存储介质,所述方法包括:获取待处理的输入视频,对所述输入视频进行视觉特征和语义标签提取,并对所述语义标签进行优化,获得先验语义标签,以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入,获得对应的描述结果,其中,所述视觉特征包括2D特征和3D特征;所述视频描述生成模型训练时,从训练样本中进行视频‑文本知识、视频‑视频知识和文本‑文本知识的挖掘,优化视频描述生成模型中多头自注意力层的参数和词嵌入层的参数。与现有技术相比,本发明具有主题相关度强、语义丰富度高、训练速度快等优点。
-
公开(公告)号:CN113515951B
公开(公告)日:2022-07-05
申请号:CN202110812701.5
申请日:2021-07-19
Applicant: 同济大学
Abstract: 本发明涉及一种基于知识增强注意力网络和组级语义的故事描述生成方法,包括以下步骤:1)提取图像的视觉特征和文本特征;2)基于知识增强注意力网络对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘,获取区域注意力增强的文本信息和视觉特征;3)基于构建组级语义模块对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联,获取全局视觉语义聚合特征;4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征,输入多模态故事解码网络中生成具备可推理和连贯性的故事描述。与现有技术相比,本发明具有语句描述更加精准、场景想象更加丰富、段落衔接更加流畅等优点。
-
-
-
-
-
-
-
-
-