一种面向大规模多媒体检索的分布式异构并行计算系统

    公开(公告)号:CN104794194A

    公开(公告)日:2015-07-22

    申请号:CN201510186094.0

    申请日:2015-04-17

    Applicant: 同济大学

    Inventor: 王瀚漓 肖波

    Abstract: 本发明涉及一种面向大规模多媒体检索的分布式异构并行计算系统,分布式异构计算机集群包括多个计算节点,每个计算节点中包括一种或多种类型的处理器,包括:性能估计模块,用于实时监测并更新不同计算模块在不同处理器上的计算性能;数据切分模块,用于根据用户提供的输入数据读写函数和性能估计模块的监测结果对输入的计算任务进行切分;分级动态调度模块,用于对切分后的计算任务进行调度及负载均衡处理;CHCF算法工具库,用于实现多种多媒体检索算法。与现有技术相比,本发明具有降低多媒体检索应用编写难度、提高分布式异构计算系统效率等优点。

    一种基于全参考图像的客观质量评价方法

    公开(公告)号:CN104394405A

    公开(公告)日:2015-03-04

    申请号:CN201410663061.6

    申请日:2014-11-19

    Applicant: 同济大学

    Inventor: 王瀚漓 傅杰

    Abstract: 本发明涉及一种基于全参考图像的客观质量评价方法,包括以下步骤:1)获取图库中参考图像r的图像信号sr和与其对应的不同失真类型的失真图像d的图像信号sd;2)根据获取的sr和sd,计算每幅参考图像和失真图像提取向量间的欧几里得距离DLLM;3)根据欧几里得距离DLLM计算得到初步客观评价分数MLLM;4)计算图库中多幅不同失真类型的失真图像的初步客观评价分数MLLM及其主观评价分数,绘制评分散点图;5)在评分散点图中建立基准线,计算每种失真类型图像的调整值offset(xk);6)调整得到待评价的图像的最终客观评价分数与现有技术相比,本发明具有人眼主观评价分高度一致,对各种失真类型有效,拟合曲线连续性良好等优点。

    一种高效视频编码零系数提前检测方法

    公开(公告)号:CN103796033A

    公开(公告)日:2014-05-14

    申请号:CN201410035122.4

    申请日:2014-01-24

    Applicant: 同济大学

    Inventor: 王瀚漓 杜焓

    Abstract: 本发明涉及一种高效视频编码零系数块提前检测方法,包括:1)设定量化参数Qp、二维DCT变换矩阵C、残差矩阵Re以及TU块的大小N;2)根据Qp、C、Re和N计算零块检测阈值;3)对于一个大小为N的TU块计算其对应的检测参数SAD;4)对于一个大小N的TU块,首先判断SAD是否满足SAD

    基于多智能体强化学习的炼油厂生产采购协同优化方法

    公开(公告)号:CN119809516A

    公开(公告)日:2025-04-11

    申请号:CN202411977102.9

    申请日:2024-12-31

    Applicant: 同济大学

    Inventor: 王瀚漓 刘雅

    Abstract: 本发明涉及一种基于多智能体强化学习的炼油厂生产采购协同优化方法,方法包括以下步骤:S1、构建生产智能体和采购智能体以及生产计划模型,设置生产智能体和采购智能体的动作空间、状态空间、奖励函数以及智能体输出动作后的基于生产计划模型更新的环境;S2、设置生产智能体和采购智能体之间的动作交互、状态交互以及奖励交互;S3、基于S2设置的交互,采用异步MAPPO方法训练生产智能体和采购智能体,获取实际的炼油厂生产数据,将实际的炼油厂生产数据输入训练完成的生产智能体和采购智能体,得到实际生产采购计划。与现有技术相比,本发明具有提高生产效率、降低运营成本和保持原油库存均衡等优点。

    基于外部知识增强和语义一致的视觉对话方法和设备

    公开(公告)号:CN119782457A

    公开(公告)日:2025-04-08

    申请号:CN202411660296.X

    申请日:2024-11-20

    Applicant: 同济大学

    Inventor: 王瀚漓 杜杉杉

    Abstract: 本发明涉及一种基于外部知识增强和语义一致的视觉对话方法和设备,方法包括:根据获取的图像、历史对话文本和当前问题文本,通过提取域内视觉对象间的关联关系和域内文本词汇间的关联关系构建多模态场景图,通过提取常识知识三元组构建常识知识库;基于常识知识库,对多模态场景图进行扩展并进行关系增强学习,得到关联增强节点的特征;利用预训练的大语言模型获取实例级表征,基于关联增强节点的特征得到文本常识级表征,针对实例级表征和常识级表征进行特征融合,得到全局的融合特征;基于融合特征,通过推理得到视觉对话的答案。本发明能够细致挖掘语义关联,使得多轮视觉对话在精准度、丰富性和全面性方面均有显著提升。

    基于三维视觉语言预训练的端到端自动驾驶规划方法

    公开(公告)号:CN119773804A

    公开(公告)日:2025-04-08

    申请号:CN202411893185.3

    申请日:2024-12-20

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于三维视觉语言预训练的端到端自动驾驶规划方法,所述方法包括以下步骤:获取多视角鸟瞰特征X,多视角鸟瞰特征X输入预训练的BEVformer中的BEV编码器计算全局视觉特征;将环境真实描述集成到基于BERT结构的文本注意块中,以获得文本表示;计算分组对齐损失;将全局视觉特征和提示特征输入到语言模型中,语言模型输出词向量,训练基于三维视觉语言预训练的生成式端到端自动驾驶规划模型;将实际的多视角图像输入自动驾驶规划模型,输出实际自动驾驶规划路径。与现有技术相比,本发明具有提高路径规划实时性和泛化能力等优点。

    一种基于多概念知识挖掘的视频描述生成方法及存储介质

    公开(公告)号:CN114743143B

    公开(公告)日:2024-11-12

    申请号:CN202210375021.6

    申请日:2022-04-11

    Applicant: 同济大学

    Inventor: 王瀚漓 张沁宇

    Abstract: 本发明涉及一种基于多概念知识挖掘的视频描述生成方法及存储介质,所述方法包括:获取待处理的输入视频,对所述输入视频进行视觉特征和语义标签提取,并对所述语义标签进行优化,获得先验语义标签,以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入,获得对应的描述结果,其中,所述视觉特征包括2D特征和3D特征;所述视频描述生成模型训练时,从训练样本中进行视频‑文本知识、视频‑视频知识和文本‑文本知识的挖掘,优化视频描述生成模型中多头自注意力层的参数和词嵌入层的参数。与现有技术相比,本发明具有主题相关度强、语义丰富度高、训练速度快等优点。

    一种基于对比学习的半监督低光照图像增强方法

    公开(公告)号:CN118446915A

    公开(公告)日:2024-08-06

    申请号:CN202410523697.4

    申请日:2024-04-28

    Applicant: 同济大学

    Abstract: 本发明要解决的技术问题是利用基于对比学习的半监督学习方法解决低光照图像增强领域配对数据集稀少和差异大的问题。一种基于对比学习的半监督低光照图像增强方法,其特征在于,包括如下步骤:步骤1训练数据集的采集与预处理;步骤2模型的选择,选择深度神经网络,包含两个模型,分别称之为学生模型和教师模型;步骤3模型的训练阶段,使用多个损失函数控制整个训练过程,分为监督学习损失函数与半监督学习损失函数两个部分;步骤4模型的部署应用阶段,利用步骤3训练后模型输入低光照图像,推导出增强图像。

Patent Agency Ranking