-
公开(公告)号:CN117830638A
公开(公告)日:2024-04-05
申请号:CN202410239251.9
申请日:2024-03-04
Applicant: 厦门大学
IPC: G06V10/26 , G06V10/778 , G06V10/764 , G06V10/774
Abstract: 本发明提供基于提示文本的面向全方位监督语义分割方法,能有效利用各种低成本图像标签以减少训练数据集的人工标注成本,达到降低语义分割方法训练成本的目的,提高语义分割模型的性能和泛化性,并通过结合视觉语言多模态模型,输入提示文本来指导模型筛选图像中的语义分割目标,通过提示文本定位出图像中目标所在位置。该语义分割方法基于教师‑学生模型框架进行改进并利用人工标注的图像全方位标签监督训练模型,包括:步骤1、计算全方位监督时教师‑学生模型框架的损失函数#imgabs0#;步骤2、通过指数移动平均算法更新教师模型的权重#imgabs1#。
-
公开(公告)号:CN117808826A
公开(公告)日:2024-04-02
申请号:CN202311691446.9
申请日:2023-12-11
Applicant: 厦门大学
Abstract: 基于多尺度特征交互和自适应旋转动态卷积的指向性遥感图像分割方法。由于遥感图像大幅度尺度变化、目标以多角度出现等特性,传统指向性图像分割方法在遥感图像上的表现受限。提供一种针对遥感图像的指向性图像分割方法:1)使用预训练好的语言模型BERT和视觉模型Swin‑Transformer获得语言特征和初始视觉特征;2)使用尺度内特征交互模块对细粒度的局部视觉特征建模;3)使用跨层多尺度注意力对不同粒度的视觉特征融合交互;4)基于尺度间充分交互后的特征提取角度信息,用根据角度动态重采样卷积核权重的自适应旋转动态卷积方法解码特征得预测分割掩码;5)提出使用半自动方法标注的新指向性遥感图像分割数据集。
-
公开(公告)号:CN117593469A
公开(公告)日:2024-02-23
申请号:CN202410063924.X
申请日:2024-01-17
Applicant: 厦门大学
Abstract: 本发明提供了3D内容生成技术领域的一种3D内容创建方法,包括如下步骤:步骤S1、将DMTet作为3D表示,基于所述3D表示构建几何模型,通过优化所述DMTet来学习几何模型的几何特征;步骤S2、利用双向反射率分布函数预测3D对象材料,基于所述3D对象材料构建外观模型,通过优化所述双向反射率分布函数来学习外观模型的外观特征;步骤S3、预先训练一文本到2D的扩散模型,将摄像机信息动态结合到所述扩散模型中;步骤S4、所述扩散模型基于几何特征以及外观特征渲染一mask图像,获取所述扩散模型的注意力图,将所述注意力图与mask图像进行对齐,进而创建3D内容。本发明的优点在于:极大的提升了3D内容创建的质量。
-
公开(公告)号:CN116050409A
公开(公告)日:2023-05-02
申请号:CN202310130117.0
申请日:2023-02-17
Applicant: 厦门大学
IPC: G06F40/289 , G06F40/284 , G06N3/08 , G06N3/0464
Abstract: 统一级联的全景叙事检测与分割方法,涉及全景叙事检测与分割。1)多模态编码;2)多模态交互;3)坐标引导聚合CGA;4)质心驱使定位BDL;5)训练损失。采用基于动态内核的方式构建统一的框架,为每个名词短语构建一个可学习的内核,预测其对应的掩码和边界框。针对预测冲突问题,提出两种新的级联模块来连续处理分割和检测,以实现跨任务对齐,即坐标引导聚合CGA模块和质心驱动定位BDL模块,利用分割掩码的质心作为锚点,将分割和检测串联连接,使两个任务自然对齐。两个模块的联合相互促进各自性能,即掩码的位置信息向前驱动BDL模块产生准确的方框,BDL模块的反向引导促进CGA模块在训练过程中区分不同实例的能力。
-
公开(公告)号:CN112819013A
公开(公告)日:2021-05-18
申请号:CN202110128194.3
申请日:2021-01-29
Applicant: 厦门大学
Abstract: 基于层内层间联合全局表示的图像描述方法,涉及人工智能。步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果。利用Transformer结构的特点,显式建模层内‑层间联合全局特征,有效利用图片的全局特征,减少图像描述任务间存在的物体缺失和关系偏置,提升生成句子的准确性和全面性;具有很强的迁移性,能适用于任何一个基于Transformer结构的图像描述模型,改进模型性能;解决图像描述的目标缺失和关系偏置问题,拓展复杂多模态推理,自动生成描述,可应用在图像检索、盲人导航、医疗报告自动生成和早教领域。
-
-
-
-