用于量化的多模态大模型的指令微调方法、电子设备和存储介质

    公开(公告)号:CN119089967A

    公开(公告)日:2024-12-06

    申请号:CN202411002426.0

    申请日:2024-07-25

    Applicant: 厦门大学

    Abstract: 本发明公开一种用于量化的多模态大模型的指令微调方法,包括:步骤1、量化感知的尺度学习;步骤2、用于尺度学习的多模态热身策略;步骤3、使用量化后的多模态大模型进行特定任务学习。本发明采用量化感知的尺度学习,能够自适应地最小化异常位置的量化误差,尤其在某些位置激活表现为异常值特征的情况下能够有效地减少了每个量化组内的量化误差,从而解决现有技术对于离群点造成的量化误差无法有效处理的问题;本发明通过均匀量化的方法,采用权重裁剪来缓解语言任务中发生的量化困难;本发明在迭代达到一定次数后,将多模态指令数据集替换为混合数据集,有助于在保持多模态任务性能的同时,逐步引入语言数据,避免过度拟合。

    一种增强的对象操纵和背景一致的图像编辑方法

    公开(公告)号:CN118967880A

    公开(公告)日:2024-11-15

    申请号:CN202410995249.4

    申请日:2024-07-24

    Applicant: 厦门大学

    Abstract: 一种增强的对象操纵和背景一致的图像编辑方法,采用扩散模型对原始图像进行图像编辑,主要步骤:在预设数量的时间步内对原始潜在代码逐步进行反演更新,并且在特定时间步将编辑对象从源区域转移到目标区域,并对编辑对象转移后的源区域背景进行修复,同时保持编辑对象转移后的未编辑区域背景完整,以在反演阶段的特定时间步中采用最终损失函数对特定潜在代码进行迭代更新,最终得到更新后潜在代码;将更新后潜在代码和编辑对象动作的指示文本输入UNet去噪器中进行采样去噪得到编辑图像。借此,可在反演阶段于目标区域中注入编辑对象并保持背景完整性,同时可在采样阶段确保被编辑对象产生指定的动作,保证编辑前后图像内容的一致性。

    一种基于三维高斯场景的开放词汇语义分割方法及装置

    公开(公告)号:CN118887665A

    公开(公告)日:2024-11-01

    申请号:CN202410837317.4

    申请日:2024-06-26

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于三维高斯场景的开放词汇语义分割方法及装置,涉及计算机视觉技术领域。首先训练不含有语义信息的三维高斯场景,然后对数据集的图片进行预处理,提取出语义特征图;然后利用语义特征图,在三维高斯场景中训练场景的开放词汇语义特征,输出每一个视角下的图片对应的预测特征图;训练完成后,将语义分割视作二分类,引入可优化的语义空间超平面,利用RES模型的预测结果来微调可优化的语义空间超平面,输出语义分割结果。本发明提供的一种基于三维高斯场景的开放词汇语义分割方法及装置,提出可优化的语义空间超平面方法,不需要基于经验设定的像素—文本相似度的阈值,又能实现相似度阈值的动态调整与更精确的分割效果。

    用于长文本大语言模型的无偏增量式优化方法、电子设备和存储介质

    公开(公告)号:CN118886425A

    公开(公告)日:2024-11-01

    申请号:CN202410834156.3

    申请日:2024-06-26

    Applicant: 厦门大学

    Abstract: 本发明公开一种用于长文本大语言模型的无偏增量式优化方法、电子设备和存储介质,实现对循环神经网络与自注意机制结合的方法进行优化,降低其训练开销,使得可以使用有限的计算资源来适配十万词元级别的文本的训练。本发明在现有的大语言模型的基础上,采用Lora方法进行微调,并添加一个对于输入文本的切片机制:对于每个所得的文本片段,在其后面添加少数可训练的记忆词元,通过训练这些记忆词元以及对模型本身的微调,让每个文本片段的内容迁移到对应的记忆词元中,最后将所有片段产生的记忆词元汇总到一起,作为上下文提供给大语言模型解码使用。

    基于空间感知网络的三维指向性目标分割方法

    公开(公告)号:CN118365659B

    公开(公告)日:2024-11-01

    申请号:CN202410796369.1

    申请日:2024-06-20

    Applicant: 厦门大学

    Abstract: 本发明任务的本质在于超点特征与文本特征的跨模态对齐,由此提出了文本驱动的定位模块(TLM);同时,设计了规则引导的弱监督(RWS)策略以精确地监督目标实例的定位以及挑选最合适的单词特征来获取最终目标掩码。在此,本发明公开了一种基于空间感知网络的三维指向性目标分割方法,提出用于端到端三维指向性目标分割的规则导向的空间感知网络(RG‑SAN),RG‑SAN由TLM和RWS策略这两个主要组件组成:由TLM定位所有实例,并迭代地改进它们的位置,以确保位置精度的持续提高;RWS策略则利用依存树规则,精确地指导核心实例的定位。这种集中的监督显著提高了对文本中空间歧义的处理能力。

    一种基于采样自适应的连续NeRF的多视角3D目标检测方法

    公开(公告)号:CN118071999A

    公开(公告)日:2024-05-24

    申请号:CN202410460946.X

    申请日:2024-04-17

    Applicant: 厦门大学

    Abstract: 本发明提供一种基于采样自适应的连续NeRF的多视角3D目标检测方法,包括:将多视角姿势图像输入到2D主干网络得到2d特征;均匀采样整个场景中的空间坐标,得到原始的采样点;将该采样点投射到2d特征中得到多视角的特征体积,再通过多头权重融合方式得到空间特征;首次多头权重融合时,由空间特征直接处理得到场景特征,将场景特征输入到检测头预测偏移量,更新采样点和多视角的特征体积,再进行多头权重融合得到新的空间特征,与上一次的场景特征拼接后处理得到新的场景特征,将该场景特征输入到检测头再预测偏移量,更新采样点和多视角的特征体积,再次多头权重融合得到新的空间特征,再得到新的场景特征,输入到检测头中得到最终的3D边界框数据。

    一种基于表征互信息的网络结构搜索方法

    公开(公告)号:CN114896436B

    公开(公告)日:2024-04-30

    申请号:CN202210671640.X

    申请日:2022-06-14

    Applicant: 厦门大学

    Abstract: 一种基于表征互信息的网络结构搜索方法,涉及人工智能技术领域。在神经网络搜索空间中,随机采样n个神经网络,利用RMI联合分类损失函数训练网络,计算n个网络的RMI分数、q分位数τ,训练拟合随机森林分类器π;从整个神经网络搜索空间随机抽取一批新的网络,从中找到概率最大的一个网络,利用损失函数训练网络,计算其RMI分数,重新拟合训练新的随机森林模型π,判断随机森林训练样本中新网络数量是否达到N,将得到的所有优秀网络样本集中网络结构的众数作最终输出的最优网络结构,利用优秀网络结构集上的统计规律,获得最可能的最优架构。高效、快速,并可推广到不同的搜索空间。使用RMI和随机森林有效探索整个搜索空间。

    一种知识驱动型的文本到图像生成方法

    公开(公告)号:CN113837229B

    公开(公告)日:2024-03-15

    申请号:CN202111005846.0

    申请日:2021-08-30

    Applicant: 厦门大学

    Abstract: 一种知识驱动型的文本到图像生成方法,属于图像生成技术领域。在基于特定自然语言描述生成图像的过程中引入视觉知识库,提供视觉先验知识,指导生成与自然语言描述相符的图像。图像生成模型将以Query‑Key‑Value的形式从视觉知识库中查询与描述文本相关的视觉特征,作为图像生成的先验知识。为充分利用先验知识,提供两种新的相关知识读取方式:弱读取和强读取。设计一种新的语义一致性度量标准“伪图灵测试”。不同多媒体任务的“专家”直接或间接地评估合成图像与给定的自然语言描述之间的语义一致性程度。提高生成的图像质量、生成图像和输入文本之间的语义一致性,避免生成图像中出现一些违背自然规律或者常识的现象。

    一种适用于视觉自注意力模型的量化方法

    公开(公告)号:CN117689044A

    公开(公告)日:2024-03-12

    申请号:CN202410142459.9

    申请日:2024-02-01

    Applicant: 厦门大学

    Abstract: 本发明提供一种适用于视觉自注意力模型(ViTs)的量化方法,涉及人工神经网络的压缩与加速,本申请提出了一种移位均匀log2量化器,在log2函数输入上引入初始的移位偏置,然后对输出进行均匀量化;还提出了一种三阶段的平滑优化策略,充分利用平滑而低振幅的损失图进行优化,同时保持对激活逐层量化的高效性。本发明方法既思想简单,同时节省计算开销,且大大提高在极低压缩比特下的性能表现,只需要应用本发明设计的量化器,可直接以后训练的方式得到量化模型,同时获得更好性能。

    一种基于单目图像的开放世界三维场景重建及感知方法

    公开(公告)号:CN117475105A

    公开(公告)日:2024-01-30

    申请号:CN202310556250.2

    申请日:2023-05-17

    Applicant: 厦门大学

    Abstract: 一种基于单目图像的开放世界三维场景重建及感知方法,涉及计算机视觉。包括场景感知、场景解耦、实例处理、实例重建、场景重组、场景感知信息融合。首先利用预训练感知模型对单目图像进行感知与实例分割;再通过填充等处理进行实例去遮挡,并再次进行实例感知得到其语义信息;再利用实例语义信息进行单目三维重建;最后通过场景和实例的感知信息计算得各实例在场景中的三维位置,并将实例重组为原始图像对应的三维场景,并通过重建出的实例三维模型计算场景中各实例的三维感知信息。有效处理开放世界场景中的实例数量不一、实例遮挡等问题,提高开放世界三维场景重建及感知的鲁棒性。

Patent Agency Ranking