一种基于链式感知的指向性3D实例分割方法

    公开(公告)号:CN117593527A

    公开(公告)日:2024-02-23

    申请号:CN202410073323.7

    申请日:2024-01-18

    Applicant: 厦门大学

    Abstract: 本发明提供了3D实例分割技术领域的一种基于链式感知的指向性3D实例分割方法,包括:步骤S1、基于物体感知模块、关系推理模块以及跨模态交互模块构建一链式感知模型;步骤S2、获取待分割的3D实例的文本表述,通过物体感知模块识别文本表述中提到的物体;步骤S3、通过关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词,并对空间信息和关系词进行关系推理,得到各物体之间的第一关联关系;步骤S4、通过跨模态交互模块从3D实例提取实例特征,并挖掘实例特征与文本表述之间的第二关联关系;步骤S5、基于第一关联关系以及第二关联关系,对文本表述指向的3D实例进行分割。本发明的优点在于:极大的提升了3D实例分割精度。

    基于Transformer结构的分层多尺度图像描述方法

    公开(公告)号:CN117422969A

    公开(公告)日:2024-01-19

    申请号:CN202310211307.5

    申请日:2023-03-07

    Applicant: 厦门大学

    Abstract: 基于Transformer结构的分层多尺度图像描述方法,涉及图像描述技术。针对现有的图像描述方法存在的视觉特征感知尺度单一,从而导致描述效果较差的缺点。提出一种多尺度的分层Transformer结构,可以利用多尺度的视觉特征信息完成准确的图像描述任务。为适应图像描述任务中的多尺度视觉特征设计三种新结构:跨尺度注意、对齐分配解码器和多尺度局部聚合。跨尺度注意是在不同尺度上实现全面的特征交互,并将特征转换为统一的张量形状。多尺度局部聚合的目的是聚合和增强多尺度特征,在此基础上进一步提出对齐分配解码器,自适应地选择最适合的特征尺度完成图像描述任务。

    一种端到端的全景叙事分割的单阶段方法

    公开(公告)号:CN115861618A

    公开(公告)日:2023-03-28

    申请号:CN202211631302.X

    申请日:2022-12-19

    Applicant: 厦门大学

    Abstract: 一种端到端的全景叙事分割的单阶段方法,涉及全景叙事分割。包括步骤:1)用卷积神经网络对图像特征进行多尺度提取并且融合;利用基于变换器的双向编码器表示技术提取文本中的每个词向量,并且利用数据集注释过滤掉非名词部分的词向量,同时对于多个词向量同时对应一个名词的情况,采用取平均值的方法作为当前名词所对应的特征;2)将局部空间先验嵌入到注意力建模中,增强不同尺度的视觉特征,从而提高分割效果;3)用步骤2)提取的文本特征做卷积核,在得到的特征图上做卷积得到掩码M;使用一个双向对比学习损失规范模态间的语义一致性;同时加上其它的损失函数来使得预测掩码的数值和分布接近真实掩码。

    一种基于多源协同特征的图像描述生成方法

    公开(公告)号:CN112819012B

    公开(公告)日:2022-05-03

    申请号:CN202110128180.1

    申请日:2021-01-29

    Applicant: 厦门大学

    Abstract: 一种基于多源协同特征的图像描述生成方法,涉及多源特征提取、强化和融合,属于人工智能技术领域,包括如下步骤:步骤1,采用目标检测器同时提取图像的网格特征和区域特征;步骤2,利用特征的绝对和相对位置信息,辅助模型进行特征理解和两种特征内部的交互和增强;步骤3,利用特征间的几何对齐关系,让两种特征进行交互增强,交换重要的视觉信息,实现更好的视觉表达。此种方法针对传统基于单源特征的图像描述方法缺少场景和细节信息的局限性,提出多源协同特征提取、融合和增强方法,强化视觉先验,从而提高生成描述的准确性。

    基于多模态大语言模型的对话生成方法及装置

    公开(公告)号:CN119938874A

    公开(公告)日:2025-05-06

    申请号:CN202510436346.4

    申请日:2025-04-09

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于多模态大语言模型的对话生成方法及装置,涉及对话生成领域,包括:获取查询语句和图像并输入到经微调的多模态大语言模型,图像输入到预训练的图像编码器中,得到多尺度编码特征和选定图像特征,多尺度编码特征经过多层聚合模块,提取得到低级图像特征和高级图像特征;将查询语句输入到文本编码器中,得到文本特征;将以上特征输入到模内及模间增强模块中进行增强,得到增强的图像特征并沿通道连接后经过多层感知机模块进行投影,得到视觉符元;将查询语句输入到预训练的分词器中进行分词,得到文本符元;将视觉符元和文本符元输入到经训练的大语言模型,生成回答语句。本发明解决现有的MLLM未考虑模内和模间相关性问题。

    用于评估基于指令的图像编辑模型的性能的方法

    公开(公告)号:CN119356995A

    公开(公告)日:2025-01-24

    申请号:CN202411189118.3

    申请日:2024-08-28

    Applicant: 厦门大学

    Abstract: 本发明公开一种用于评估基于指令的图像编辑模型的性能的方法,能够全面地评估基于指令的图像编辑模型。本发明提出I2EBench评估标准,包括:步骤1、从现有的公开数据集中随机搜集至少2000张原始图像,并对原始图像进行标注编辑指令,编辑指令的数量至少为4000条,并通过ChatGPT对编辑指令进行多样化处理,由此构建评估数据集;步骤2、将评估数据集输入待评估的各个基于指令的图像编辑模型,基于8个高级编辑维度、8个低级编辑维度共16个编辑维度对这些图像编辑模型进行评估,计算基准评估得分;步骤3、通过问卷进行用户调研,获取用户对于模型的图像编辑效果的排名并计算人类评估得分;将基准评估得分与人类评估得分进行对比,计算两者之间的相关度。

    基于轨迹的免训练图像生成方法、电子设备和存储介质

    公开(公告)号:CN119107374A

    公开(公告)日:2024-12-10

    申请号:CN202411002424.1

    申请日:2024-07-25

    Applicant: 厦门大学

    Abstract: 本发明公开一种基于轨迹的免训练图像生成方法、电子设备和存储介质,实现简单、用户友好、可控的图像生成,其包括:获取用户绘制的轨迹及其轨迹线段对应的控制文本标签,并获取文本提示;根据控制文本标签对各轨迹线段计算距离矩阵,对文本提示进行分词并提取文本特征,对轨迹的控制文本标签进行分词并计算其在文本提示被分词后的列表中的下标;初始化稳定扩散模型的潜在特征;根据控制文本标签的下标,对预训练的稳定扩散模型的Unet模型部分的特定层的交叉注意力分别计算各控制文本标签的控制损失和移动损失并梯度回传,然后基于稳定扩散模型无分类引导的去噪过程更新潜在特征;重复直至完成去噪,最后解码更新后的潜在特征得到生成图像。

    利用文本到图像扩散模型实现短语级定位的方法

    公开(公告)号:CN118247799B

    公开(公告)日:2024-09-06

    申请号:CN202410661746.0

    申请日:2024-05-27

    Applicant: 厦门大学

    Abstract: 本发明公开一种利用文本到图像扩散模型实现短语级定位的方法,基于PNG任务,引入DiffPNG框架,将PNG任务视为一个定位‑分割‑细化的解决范式,DiffPNG框架主要包括特征提取器、LSP模块、主语词聚焦的特征聚合器和SMR模块;具体执行以下步骤:特征提取器获取图像潜在噪声表示和文本特征编码并输入扩散模型;LSP模块在逆扩散过程中利用交叉注意力来识别每个实例的位置并获得高置信度的像素点作为锚点,对锚点使用自注意力进行聚合并生成分割掩码;主语词聚焦的特征聚合器基于相似性进行自适应特征聚合,使用点乘法计算PNG基准数据集的名词短语中每个词特征与最后一个词特征之间的成对相似度;SMR模块筛选出由SAM生成的候选掩码与分割掩码合并,生成最终的输出结果。

    基于文本驱动的端到端的3D人脸生成与编辑方法

    公开(公告)号:CN117853638B

    公开(公告)日:2024-08-20

    申请号:CN202410257189.6

    申请日:2024-03-07

    Applicant: 厦门大学

    Abstract: 本发明基于文本驱动的端到端的3D人脸生成与编辑方法,在3D人脸生成过程中采用文本到视觉的直接映射,将映射后的文本特征与噪声相加后,得到具有文本信息的风格隐码,该风格隐码同时调控负责三维特征建模的NeRF块和二维特征上采样的卷积层,从而将文本控制条件加入到整个3D人脸的生成过程中。为了提高生成人脸与文本的匹配一致性,本发明设计了风格隐码增强器,利用文本局部特征与当前的视觉特征进行融合,在不同的生成阶段对风格隐码进行调控。模型训练时在3D空间中引入几何正则项,在3D空间对生成的人脸进行低级几何属性和高级几何特征的约束,减少了视角信息缺失导致遮挡异物的出现。

    基于空间感知网络的三维指向性目标分割方法

    公开(公告)号:CN118365659A

    公开(公告)日:2024-07-19

    申请号:CN202410796369.1

    申请日:2024-06-20

    Applicant: 厦门大学

    Abstract: 本发明任务的本质在于超点特征与文本特征的跨模态对齐,由此提出了文本驱动的定位模块(TLM);同时,设计了规则引导的弱监督(RWS)策略以精确地监督目标实例的定位以及挑选最合适的单词特征来获取最终目标掩码。在此,本发明公开了一种基于空间感知网络的三维指向性目标分割方法,提出用于端到端三维指向性目标分割的规则导向的空间感知网络(RG‑SAN),RG‑SAN由TLM和RWS策略这两个主要组件组成:由TLM定位所有实例,并迭代地改进它们的位置,以确保位置精度的持续提高;RWS策略则利用依存树规则,精确地指导核心实例的定位。这种集中的监督显著提高了对文本中空间歧义的处理能力。

Patent Agency Ranking