-
公开(公告)号:CN113837229B
公开(公告)日:2024-03-15
申请号:CN202111005846.0
申请日:2021-08-30
Applicant: 厦门大学
IPC: G06V10/764 , G06F40/211 , G06F40/30 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/0475 , G06N3/084 , G06N3/094
Abstract: 一种知识驱动型的文本到图像生成方法,属于图像生成技术领域。在基于特定自然语言描述生成图像的过程中引入视觉知识库,提供视觉先验知识,指导生成与自然语言描述相符的图像。图像生成模型将以Query‑Key‑Value的形式从视觉知识库中查询与描述文本相关的视觉特征,作为图像生成的先验知识。为充分利用先验知识,提供两种新的相关知识读取方式:弱读取和强读取。设计一种新的语义一致性度量标准“伪图灵测试”。不同多媒体任务的“专家”直接或间接地评估合成图像与给定的自然语言描述之间的语义一致性程度。提高生成的图像质量、生成图像和输入文本之间的语义一致性,避免生成图像中出现一些违背自然规律或者常识的现象。
-
公开(公告)号:CN116071544A
公开(公告)日:2023-05-05
申请号:CN202310040718.2
申请日:2023-01-13
Applicant: 厦门大学
Abstract: 面向弱监督指向性视觉理解的图像描述预测方法,涉及图像处理。RGB图像通过预训练的YoloV3主干网络得三个尺度视觉特征即锚点特征及其对应的预测框,多尺度融合,尺度过滤、置信度过滤得到候选锚点特征,候选锚点特征和对应文本特征相似度计算。训练时,优化目标是最大化匹配图文对中锚点特征和对应文本之间最高相似度得分,最小化不匹配图文对中锚点特征和文本之间相似度得分,实现缺乏真实边界框标注条件下图片与语义对齐。预测时,选择和文本相似度最高的锚点特征,根据索引找到对应预测框,选择置信度最高的预测框作目标边界框输出。减少候选锚点数量,减少噪声,不受batchsize大小限制,采用单阶段建模,有效提升推理速度。
-
公开(公告)号:CN117172309A
公开(公告)日:2023-12-05
申请号:CN202311123355.5
申请日:2023-09-01
Applicant: 厦门大学
Abstract: 一种参数高效的大规模预训练模型迁移方法,涉及深度学习自然语言处理领域。1)模型预训练,计算每一个模块的得分;2)依据每一个模块的得分,采样一个模型结构;3)基于若干个采样得到的结构,通过比较动量地更新每一个模块的冗余度;4)短接具有最大冗余度的m个模块作为最终的网络。通过训练和比较过程,在给定短接m个模块的前提下,获得具有最佳性能的模型,并使模型可以在下游任务中发挥良好的性能。主要面向跨模态大规模预训练模型,通过强化学习方法,评估大规模预训练模型中每一个模块的冗余程度。通过对所有被认为是冗余的多模态预训练模块短接一个轻量级适应器,实现在训练阶段的效率提升,也提高模型在部署阶段的推理效率。
-
公开(公告)号:CN108170816A
公开(公告)日:2018-06-15
申请号:CN201711494024.7
申请日:2017-12-31
Applicant: 厦门大学
Abstract: 一种基于深度神经网络的智能视觉问答模型,涉及人工智能领域中的智能视觉问答。包括以下步骤:智能问答数据预处理;图像深度卷积特征抽取;文本问题深度特征抽取;智能视觉问题处理;基于枢纽通道的视觉智能问答。采用多任务学习框架进行全新的深度学习网络设计以解决智能视觉问答中训练数据缺乏与回答原因不可知等两大问题。设计了一新型的深度学习网络结构,该网络在进行智能视觉问答的同时能够对给出的答案进行原因说明,该网络结构包含一视觉描述模块,可根据问题内容针对性地对图像内容进行描述。该网络结构采用了枢纽结构设计,能将图像描述、文本问答等领域的数据引入到视觉智能问答任务中来。
-
公开(公告)号:CN117853638A
公开(公告)日:2024-04-09
申请号:CN202410257189.6
申请日:2024-03-07
Applicant: 厦门大学
IPC: G06T15/00 , G06F40/30 , G06N3/0464 , G06N3/0499 , G06N3/084 , G06N3/094
Abstract: 本发明基于文本驱动的端到端的3D人脸快速生成与编辑方法,在3D人脸生成过程中采用文本到视觉的直接映射,将映射后的文本特征与噪声相加后,得到具有文本信息的风格隐码,该风格隐码同时调控负责三维特征建模的NeRF块和二维特征上采样的卷积层,从而将文本控制条件加入到整个3D人脸的生成过程中。为了提高生成人脸与文本的匹配一致性,本发明设计了风格隐码增强器,利用文本局部特征与当前的视觉特征进行融合,在不同的生成阶段对风格隐码进行调控。模型训练时在3D空间中引入几何正则项,在3D空间对生成的人脸进行低级几何属性和高级几何特征的约束,减少了视角信息缺失导致遮挡异物的出现。
-
公开(公告)号:CN117540818A
公开(公告)日:2024-02-09
申请号:CN202311209456.4
申请日:2023-09-19
Applicant: 厦门大学
Abstract: 一种动量模仿学习的视觉语言预训练模型优化方法,涉及高效参数迁移学习。1)计算权重模拟学习的损失函数:2)动量更新模型的权重:3)计算混合近似函数:(1)ft(X)=X+(XAd+ad)Bd+bd,(2)fb(X)=XW0+XAbBd,(3)fh(X)=fb(ft(X));4)重参数化近似函数。通过模仿原模型权重学习过程和优化低秩适配器的近似误差,实现对视觉语言预训练模型的高效优化。
-
公开(公告)号:CN117037176A
公开(公告)日:2023-11-10
申请号:CN202310971499.X
申请日:2023-08-03
Applicant: 厦门大学
IPC: G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0499 , G06N3/08
Abstract: 一种面向视觉‑语言任务的预训练语言模型适配方法,涉及多模态处理技术。用于根据视觉‑语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换。步骤:1)基于视觉特征和文本特征,使用跨模态注意力层来提取轻量级的动态视觉提示,进而减少输入序列过长带来的计算开销。2)使用一种基于强化学习的搜索方法找出视觉提示在预训练语言模型中最合适的插入位置,提升预训练语言模型在视觉‑语言任务的适配性能。3)在预训练语言模型中加入Adapter模块,大幅度降低训练参数量,实现语言任务向视觉‑语言任务的快速过渡。
-
公开(公告)号:CN116912624A
公开(公告)日:2023-10-20
申请号:CN202310908128.7
申请日:2023-07-24
Applicant: 厦门市公安局 , 厦门大学 , 南强智视(厦门)科技有限公司
IPC: G06V10/774 , G06V10/762 , G06V10/82 , G06V10/74 , G06V10/764 , G06N3/045 , G06N3/09
Abstract: 本发明提供一种伪标签无监督数据训练方法、装置、设备及介质,方法包括使用CLIP预训练模型对图像库中的无标注图像数据进行样本初步标注;根据初步标注结果和类别置信度,对不同的类别挑选样本进行人工标注得到人工标注图像数据;利用人工标注图像数据,通过交叉熵损失函数对分类模型进行有监督训练,将训练后的分类模型复制成两份,一份作为教师网络模型,另一份作为学生网络模型;通过教师网络模型为无标注图像数据生成伪标签,计算基于聚类伪标签的自适应阈值,利用自适应阈值对教师网络模型生成的伪标签进行过滤,并使用过滤后的伪标签训练学生网络模型。本发明的优点:能够降低人工标注成本,便于生成多样化、且高质量的伪标签。
-
公开(公告)号:CN108170816B
公开(公告)日:2020-12-08
申请号:CN201711494024.7
申请日:2017-12-31
Applicant: 厦门大学
IPC: G06F16/332 , G06N3/04 , G06N3/08
Abstract: 一种基于深度神经网络的智能视觉问答模型,涉及人工智能领域中的智能视觉问答。包括以下步骤:智能问答数据预处理;图像深度卷积特征抽取;文本问题深度特征抽取;智能视觉问题处理;基于枢纽通道的视觉智能问答。采用多任务学习框架进行全新的深度学习网络设计以解决智能视觉问答中训练数据缺乏与回答原因不可知等两大问题。设计了一新型的深度学习网络结构,该网络在进行智能视觉问答的同时能够对给出的答案进行原因说明,该网络结构包含一视觉描述模块,可根据问题内容针对性地对图像内容进行描述。该网络结构采用了枢纽结构设计,能将图像描述、文本问答等领域的数据引入到视觉智能问答任务中来。
-
公开(公告)号:CN119204137A
公开(公告)日:2024-12-27
申请号:CN202411264192.7
申请日:2024-09-10
Applicant: 厦门大学
Abstract: 本发明公开了一种基于多模态大模型的自适应视觉标记剪枝方法及装置,方法包括:计算视觉标记的两个初始分布;根据二分查找算法初始化误差阈值;使用贪心算法删除对两个初始分布影响最小的视觉标记直到两个初始分布的误差均达到误差阈值,得到两组候选删除标记并取交集,基于交集对视觉标记进行删除;根据删除完视觉标记的模型运算量与目标计算量更新误差阈值边界;重复删除与更新步骤直到达到停止条件,计算一批数据平均每层视觉标记删除的数量作为删除策略;对待删除的视觉标记进行排序后再记按照删除策略进行删除。本发明通过自动识别和移除冗余视觉标记来优化计算资源的使用,在不牺牲模型性能的前提下降低运行成本、加速模型的推理速度。
-
-
-
-
-
-
-
-
-