-
公开(公告)号:CN114612451B
公开(公告)日:2025-03-28
申请号:CN202210268374.6
申请日:2022-03-18
Applicant: 上海交通大学
Abstract: 本发明提供了一种基于多源集成蒸馏的多器官分割方法及系统,包括:输入图片经过所述的教师和学生模型预测得到多组分割图;将教师图片分割图进行输出转换,扩充到多类别输出;根据基于区域的掩码对输出进行器官和背景区域的转换;对不同器官区域和背景区域分别进行监督学习,使得教师和学生模型的转换后的预测结果对齐,得到一个高效的学生多器官分割模型;输入预测图片经过学生多器官分割模型,获得器官分割预测结果。本发明通过多源集成蒸馏的方法,指导训练一个效果更好的多器官分割模型,实现隐私友好情况下的更精确的无监督多器官分割。
-
公开(公告)号:CN114972036B
公开(公告)日:2024-09-24
申请号:CN202210657948.9
申请日:2022-06-10
Applicant: 上海交通大学
IPC: G06T3/4053 , G06T3/4046 , G06T3/4084 , G06N3/0464 , G06N3/043 , G06N3/08
Abstract: 本发明提供一种基于融合退化先验的核反卷积盲图像超分辨率重建网络;低分辨率图像输入所述上采样网络,重建出满足原始模糊核约束的高分辨率尺度的过渡图像;将所述过渡图像和所述原始模糊核输入所述反卷积网络,实现高分辨率图像的重建。本发明通过引入退化建模的方式,将盲图像超分辨率重建解耦,并将完整原始模糊核显式引入重建过程中,避免了由于引入预生成的模糊核降维手段而带来的模糊核信息丢失,以及面对未知退化核而带来的泛化性问题,端到端的实现了盲图像超分辨率重建。
-
公开(公告)号:CN118503371A
公开(公告)日:2024-08-16
申请号:CN202410596680.1
申请日:2024-05-14
Applicant: 上海交通大学 , 上海人工智能创新中心
IPC: G06F16/332 , G06N5/04 , G06F16/583 , G06N3/0499 , G06N3/048 , G06N3/08 , G06F18/22 , G06F18/25
Abstract: 本发明提供了一种基于多粒度时空场景图与反事实推理的多模态对话生成方法和系统,包括:对音视频进行预处理,提取视觉和听觉的多粒度语义表征,提取视频的多粒度时空场景图信息;通过音视频得到基于多模态信息的答案表征,通过对话历史得到基于文本信息的答案表征,通过多指针网络将两个答案表征进行结合,得到最终答案表征;训练初步模型,通过反事实推理对初步模型进行去偏;对当前待回复的问句,通过自回归模式生成答案。本发明利用多粒度场景图的显式表示实现视频信息的准确性、利用多指针网络的多向选择实现文本信息和视频信息的有效结合、利用反事实推理的因果去偏实现减少数据分布不平衡的不平衡训练,可以有效地消除多模态对话中的幻觉。
-
公开(公告)号:CN118196230A
公开(公告)日:2024-06-14
申请号:CN202410510838.9
申请日:2024-04-26
Applicant: 上海交通大学
Abstract: 本发明提供一种图像上色方法及系统,其中方法包括:提供一图像上色模型,所述图像上色模型包括:预训练的文本编码器、实例掩码多层感知机、实例拼接多层感知机、预训练的视觉编码器、自注意力模型、视觉文本交叉注意力模型、条件图像引导网络模型、条件交叉注意力模型以及预训练的视觉解码器;提供一训练数据集,所述训练数据集包括:实例文本、实例掩码、彩色图像、整体文本以及黑白图像;利用所述训练数据对所述图像上色模型进行训练,得到训练后的图像上色模型;利用所述训练后的图像上色模型,进行图像上色。本发明使用输入的实例掩码和实例文本,允许使用者自定义图像中每个物体的颜色,改善了颜色绑定的问题。
-
公开(公告)号:CN117237381A
公开(公告)日:2023-12-15
申请号:CN202311244917.1
申请日:2023-09-25
Applicant: 上海交通大学
IPC: G06T7/11 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明提供了一种对于缺失模态鲁棒的多模态MRI脑瘤图像分割方法及系统,包括:步骤S1:采集多模态MRI图像数据,并对多模态MRI图像数据进行预处理得到预处理后的多模态MRI图像数据;步骤S2:将预处理后的单模态MRI图像数据分别输入多个不同的编码器‑解码器3D‑UNet网络得到各自模态的判别性表征;步骤S3:将预处理后的多模态MRI图像数据在通道维度上进行连接,并输入至前交互的编码器‑解码器3D‑UNet网络得到前交互融合表征;步骤S4:将前交互融合表征和各自模态的判别性表征基于注意力机制进行自适应动态融合,得到后交互融合表征;步骤S5:将各自模态的判别性表征、前交互融合表征和后交互融合表征分别输入不同的一层深度卷积神经网络得到各自的肿瘤分割图。
-
公开(公告)号:CN116629323A
公开(公告)日:2023-08-22
申请号:CN202310475194.X
申请日:2023-04-27
Applicant: 上海人工智能创新中心 , 上海交通大学
IPC: G06N3/0475 , G06N3/094 , G06T11/00
Abstract: 本发明公开一种扩散模型的优化方法,其首先在迷你批次中从扩散过程的马尔可夫链路径中对步骤进行随机采样,得到当前批次中的步骤t,然后对步骤t的图像中的每个像素点进行随机加噪,得到步骤t的噪声图像,并基于其通过模型对原图进行预测,得到模型预测的噪声,然后计算模型预测的噪声与真实噪声之间的均方损失,最后从遵循预设分布的标签集合中进行采样,得到额外的随机标签,并基于随机标签对噪声图像的噪声进行重新预测,并计算分布调整损失。该方法在采样过程中调整条件转移概率,隐含地迫使生成的图像在每个采样步骤中逼近目标先验分布,补全了针对基于长尾分布数据训练更稳健的生成模型方向的研究空缺。
-
公开(公告)号:CN108989826B
公开(公告)日:2023-07-14
申请号:CN201710415356.5
申请日:2017-06-05
Applicant: 上海交通大学 , 中兴通讯股份有限公司
IPC: H04N21/218 , H04N21/2343 , H04N21/4402 , H04N21/647
Abstract: 本发明提供了一种视频资源的处理方法及装置,其中之一的方法包括:对视频资源的视频类型进行标识得到所述视频资源的描述信息,其中,所述描述信息包括与所述视频资源对应的以下至少之一:视频映射方式,视频重排列方式,视频分块方式;将所述描述信息发送给所述视频资源的接收端。通过本发明,解决了相关技术中不能对视频资源进行精确定位和识别的问题。
-
公开(公告)号:CN115861642A
公开(公告)日:2023-03-28
申请号:CN202211365296.8
申请日:2022-11-02
Applicant: 上海人工智能创新中心 , 上海交通大学
IPC: G06V10/44 , G06V10/764 , G06V10/80
Abstract: 本发明涉及图像处理技术领域,提出一种混合协作3D对象检测方法及系统。该方法包括:由多个智能体对3D对象进行检测以生成智能体位姿、对象特征图以及对象边界框;将多个智能体对同一3D对象检测生成的多个对象边界框对齐以对多个智能体之间的相对位姿进行校正;根据多个智能体之间的校正后的相对位姿生成融合对象特征图;以及根据所述融合对象特征图生成协作对象边界框。本发明可以有效抑制协作3D对象检测的位姿噪声,进而可以提升协作3D对象检测的检测精度和检测效率,并且提升了鲁棒性。
-
公开(公告)号:CN115858817A
公开(公告)日:2023-03-28
申请号:CN202211690422.7
申请日:2022-12-27
Applicant: 上海人工智能创新中心 , 上海交通大学
IPC: G06F16/36 , G06F40/295 , G06F18/25 , G06N3/09 , G06F18/214
Abstract: 本发明涉及医学人工智能技术领域,具体公开了一种医学知识增强的图文预训练系统及方法,所述系统包括:数据获取模块,用于获取一辆数据中的文本‑图像数据对;三元组化理模块;用于对于数据获取模块的医学文本进行三元组化的预处理,其中三元组包含三个部分:实体名称、实体位置、实体存在与否;多模态融合训练模块,用于对图像进行编码并结合实体描述内容,通过融入编码器。本发明利用医学实体过滤技术重构出的实体层面的全新医疗预训练范式;利用医学描述编码的医学图文预训练的知识融合技术;利用transformer结构实现的预训练系统中较好的病灶定位功能。
-
公开(公告)号:CN115809352A
公开(公告)日:2023-03-17
申请号:CN202211581256.7
申请日:2022-12-09
Applicant: 上海交通大学
IPC: G06F16/732 , G06F16/783 , G06F40/279 , G06V20/40 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0464
Abstract: 本发明提供了一种局部监督长视频时序文本检索方法及系统,包括:根据输入检索文本提取文本初始特征;根据输入长视频提取视频初始特征;将文本初始特征和视频初始特征进行跨模态融合为文本特征图和视频特征图;将视频特征图映射为文本描述的事件提案,进而计算事件时序位置掩膜;根据局部时序标签监督事件提案;基于时序位置掩膜,对事件特征和文本特征进行聚合;基于事件特征、文本特征进行多模态特征对比学习;基于事件提案计算粗略检索结果;对粗略检索结果进行细化,产生精确边界检索结果图;基于精确边界检索结果图产生最终预测。本发明通过局部监督在维持低廉标注成本的同时,也提供了精确的检索位置锚,奠定了强大的性能基石。
-
-
-
-
-
-
-
-
-