-
公开(公告)号:CN119782457A
公开(公告)日:2025-04-08
申请号:CN202411660296.X
申请日:2024-11-20
Applicant: 同济大学
IPC: G06F16/3329 , G06V10/764 , G06N5/025
Abstract: 本发明涉及一种基于外部知识增强和语义一致的视觉对话方法和设备,方法包括:根据获取的图像、历史对话文本和当前问题文本,通过提取域内视觉对象间的关联关系和域内文本词汇间的关联关系构建多模态场景图,通过提取常识知识三元组构建常识知识库;基于常识知识库,对多模态场景图进行扩展并进行关系增强学习,得到关联增强节点的特征;利用预训练的大语言模型获取实例级表征,基于关联增强节点的特征得到文本常识级表征,针对实例级表征和常识级表征进行特征融合,得到全局的融合特征;基于融合特征,通过推理得到视觉对话的答案。本发明能够细致挖掘语义关联,使得多轮视觉对话在精准度、丰富性和全面性方面均有显著提升。
-
公开(公告)号:CN119773804A
公开(公告)日:2025-04-08
申请号:CN202411893185.3
申请日:2024-12-20
Applicant: 同济大学
Abstract: 本发明涉及一种基于三维视觉语言预训练的端到端自动驾驶规划方法,所述方法包括以下步骤:获取多视角鸟瞰特征X,多视角鸟瞰特征X输入预训练的BEVformer中的BEV编码器计算全局视觉特征;将环境真实描述集成到基于BERT结构的文本注意块中,以获得文本表示;计算分组对齐损失;将全局视觉特征和提示特征输入到语言模型中,语言模型输出词向量,训练基于三维视觉语言预训练的生成式端到端自动驾驶规划模型;将实际的多视角图像输入自动驾驶规划模型,输出实际自动驾驶规划路径。与现有技术相比,本发明具有提高路径规划实时性和泛化能力等优点。
-
公开(公告)号:CN114743143B
公开(公告)日:2024-11-12
申请号:CN202210375021.6
申请日:2022-04-11
Applicant: 同济大学
IPC: G06V20/40 , G06V10/774 , G06V10/764 , G06F40/30 , G06V20/70 , G06V10/82
Abstract: 本发明涉及一种基于多概念知识挖掘的视频描述生成方法及存储介质,所述方法包括:获取待处理的输入视频,对所述输入视频进行视觉特征和语义标签提取,并对所述语义标签进行优化,获得先验语义标签,以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入,获得对应的描述结果,其中,所述视觉特征包括2D特征和3D特征;所述视频描述生成模型训练时,从训练样本中进行视频‑文本知识、视频‑视频知识和文本‑文本知识的挖掘,优化视频描述生成模型中多头自注意力层的参数和词嵌入层的参数。与现有技术相比,本发明具有主题相关度强、语义丰富度高、训练速度快等优点。
-
公开(公告)号:CN118865490A
公开(公告)日:2024-10-29
申请号:CN202410859475.X
申请日:2024-06-28
Applicant: 同济大学
IPC: G06V40/20 , G06V10/82 , G06V10/40 , G06V10/80 , G06V20/70 , G06F40/126 , G06N3/045 , G06N3/042 , G06N3/0464 , G06N3/0895
Abstract: 本发明涉及一种基于提示式对比学习的骨架动作识别方法及存储介质,该方法包括:获取待识别的视频帧,输入预先训练好的骨架动作识别模型中进行识别,输出动作识别结果,其中骨架动作识别模型包括骨架编码器、文本编码器、感知模块和跨模态注意力块。与现有技术相比,本发明具有减少模态差距、提高特征的对齐度和表征能力等优点。
-
公开(公告)号:CN118446915A
公开(公告)日:2024-08-06
申请号:CN202410523697.4
申请日:2024-04-28
Applicant: 同济大学
Abstract: 本发明要解决的技术问题是利用基于对比学习的半监督学习方法解决低光照图像增强领域配对数据集稀少和差异大的问题。一种基于对比学习的半监督低光照图像增强方法,其特征在于,包括如下步骤:步骤1训练数据集的采集与预处理;步骤2模型的选择,选择深度神经网络,包含两个模型,分别称之为学生模型和教师模型;步骤3模型的训练阶段,使用多个损失函数控制整个训练过程,分为监督学习损失函数与半监督学习损失函数两个部分;步骤4模型的部署应用阶段,利用步骤3训练后模型输入低光照图像,推导出增强图像。
-
公开(公告)号:CN117972142A
公开(公告)日:2024-05-03
申请号:CN202410225442.X
申请日:2024-02-29
Applicant: 同济大学
IPC: G06F16/783 , G06F18/22 , G06V10/77 , G06V10/74 , G06V10/82 , G06V10/774
Abstract: 本发明涉及计算机技术领域,尤其是涉及一种基于跨模态分布消偏的视频文本检索方法、装置及存储介质。该方法获取待检索的文本查询和视频集后,利用训练好的视频文本检索模型获取各视频的相似度,将相似度最高的视频作为检索结果,其中,视频文本检索模型包括特征投影层和模态判别层,并利用枢纽正则损失函数进行训练。与现有技术相比,本发明具有有效弥合不同模态之间的鸿沟,提升利用大规模预训练模型进行检索的准确性,提升整个检索系统的性能等优点。
-
公开(公告)号:CN117933474A
公开(公告)日:2024-04-26
申请号:CN202410107889.7
申请日:2024-01-25
Applicant: 同济大学
IPC: G06Q10/04 , G06Q10/0631 , G06Q10/20 , G06F17/15
Abstract: 本发明涉及一种计及渣油加氢装置维护周期的炼厂生产维护协同优化方法,包括:针对炼油厂工艺流程对生产过程进行建模,构建多计划周期的生产计划模型;基于渣油加氢装置的运行状态,构建渣油加氢装置维护计划模型;基于所述生产计划模型和所述渣油加氢装置维护计划模型,以预设的目标函数协同优化求解得到优化后的生产计划和渣油加氢装置维护周期。与现有技术相比,本发明通过协同优化求解得到渣油加氢装置维护周期,能够匹配生产计划的需求,并改善生产效率。
-
公开(公告)号:CN111814843B
公开(公告)日:2024-02-27
申请号:CN202010563278.5
申请日:2020-06-19
Applicant: 同济大学
IPC: G06V10/44 , G06N3/0464 , G06F16/332 , G06V10/82
Abstract: 本发明涉及一种视觉问答系统中图像特征模块端到端训练方法及应用,所述训练方法包括:获取视觉问答模型的初始模型参数;获取训练图像和对应的训练文本序列;对所述训练图像进行图像特征抽取,并对所述训练文本序列进行文本特征提取;对所述图像特征和文本特征进行特征融合,生成融合特征,基于所述融合特征生成输出答案;基于所述输出答案与所述训练图像的初始答案计算答案误差;在所述视觉问答模型的其他部分优化方法不变的前提下,基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。与现有技术相比,本发明具有效果显著、实现简单等优点。
-
公开(公告)号:CN111198966B
公开(公告)日:2023-09-26
申请号:CN201911332422.8
申请日:2019-12-22
Applicant: 同济大学
IPC: G06F16/783
Abstract: 本发明涉及一种基于多智能体边界感知网络的自然语言视频片段检索方法,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络。与现有技术相比,本发明在实现高精度检索的条件下仍然保持参数量不会大幅增大,并且可以凭借边界感知能力更能满足现实生活中具有众多复杂场景的视频片段检索需求。
-
公开(公告)号:CN114501034B
公开(公告)日:2023-08-04
申请号:CN202111519451.2
申请日:2021-12-11
Applicant: 同济大学
Abstract: 本发明涉及一种基于离散高斯混合超先验和Mask的图像压缩方法及介质,所述方法包括以下步骤:对待压缩图像进行预处理,获得预处理图像;提取所述预处理图像的特征图,同时基于所述预处理图像的空间特征信息,生成Mask值,将所述特征图和Mask值进行点乘处理,获得隐变量表征;采用多个高斯分布提取隐变量表征的分布情况,生成离散高斯混合超先验值;对所述隐变量表征进行量化,基于所述超先验值对量化后的隐变量表征进行熵编码压缩,获得压缩图像的编码信息;基于所述压缩图像的编码信息解码获得重构图像。与现有技术相比,本发明具有压缩质量较好、图像压缩效率高等优点。
-
-
-
-
-
-
-
-
-