-
公开(公告)号:CN117853638B
公开(公告)日:2024-08-20
申请号:CN202410257189.6
申请日:2024-03-07
Applicant: 厦门大学
IPC: G06T15/00 , G06F40/30 , G06N3/0464 , G06N3/0499 , G06N3/084 , G06N3/094
Abstract: 本发明基于文本驱动的端到端的3D人脸生成与编辑方法,在3D人脸生成过程中采用文本到视觉的直接映射,将映射后的文本特征与噪声相加后,得到具有文本信息的风格隐码,该风格隐码同时调控负责三维特征建模的NeRF块和二维特征上采样的卷积层,从而将文本控制条件加入到整个3D人脸的生成过程中。为了提高生成人脸与文本的匹配一致性,本发明设计了风格隐码增强器,利用文本局部特征与当前的视觉特征进行融合,在不同的生成阶段对风格隐码进行调控。模型训练时在3D空间中引入几何正则项,在3D空间对生成的人脸进行低级几何属性和高级几何特征的约束,减少了视角信息缺失导致遮挡异物的出现。
-
公开(公告)号:CN117557683A
公开(公告)日:2024-02-13
申请号:CN202311209514.3
申请日:2023-09-19
Applicant: 厦门大学
Abstract: 一种新型的文本和语义分割图共同驱动的图像生成方法,属于图像生成技术领域。利用CLIP模型的预训练语言编码器从输入文本描述中提取语义信息。通过提出的门控跨模态注意力模块,将获得的单词嵌入转换为文本先验张量。在视觉信息方面,使用浅卷积层从输入分割掩码中提取视觉先验特征,将这些文本和视觉先验输入渐进像素合成生成器,以生成最终的人脸图像。在训练过程中,使用对抗性损失目标,通过学习文本、掩码和生成的图像之间的三元组一致性来确保可控性。此外,还实现基于CLIP的正则化来对齐视觉语言特征。经过训练后,可以通过单个或两个条件输入支持高度可控的人脸生成和操作。
-
公开(公告)号:CN117194989A
公开(公告)日:2023-12-08
申请号:CN202311290661.8
申请日:2023-10-08
Applicant: 厦门大学
IPC: G06F18/214 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 一种提高大型语言模型适配多模态任务效率的方法,属于高效视觉语言指令调优领域。1)引入模态标记指示输入模态;2)定义混合模态适配器;3)基于混合模态适配器进行混合模态训练,利用ScienceQA执行多模态科学问答任务,利用Alphaca‑52k和LLaVA‑158k两个数据集执行多模态对话任务;4)将视觉特征转化为与大型语言模型输入特征的相同维度;5)定义大型语言模型的输入;6)大型语言模型预测下一个词。减少将多模态能力拓展到大型语言模型所需的训练时间和参数量且获得与之前该领域最好方法相当的精度,该大型视觉语言指令模型具有成为通用聊天机器人的巨大潜能。
-
公开(公告)号:CN116563687A
公开(公告)日:2023-08-08
申请号:CN202310669796.9
申请日:2023-06-07
Applicant: 厦门大学
IPC: G06V10/82 , G06V10/774 , G06V10/766 , G06N3/045 , G06N3/084 , G06N3/0895 , G06N3/096
Abstract: 一种面向半监督指向性目标检测的教师‑学生网络方法,属于图像处理技术领域。通过利用少量的有标签数据和大量的无标签数据来提升模型性能并减少标注成本。教师网络为无标签数据预测伪标签,学生网络同时学习有标签数据和伪标签。为了解决半监督REC中的两个关键挑战,即稀疏监督信号和更差的伪标签噪声,提出基于注意力的模仿学习模块(AIL)和自适应伪标签加权模块(APW)。AIL模块可以帮助学生网络模仿教师的密集行为,从而获得足够的监督信号。APW模块可以帮助模型自适应地调整具有不同质量的伪标签的贡献,从而避免模型偏置。此种教师‑学生网络方法能够有效解决半监督指向性目标检测问题。
-
公开(公告)号:CN119697444A
公开(公告)日:2025-03-25
申请号:CN202411887053.X
申请日:2024-12-20
Applicant: 厦门大学
IPC: H04N21/472 , H04N21/234 , H04N21/2343 , H04N21/44 , H04N21/4402 , H04N21/845 , G06N3/082
Abstract: 本发明公开了一种基于自注意力和关键帧的免训练长视频编辑方法及装置,涉及视频编辑技术领域,方法包括:使用预训练的扩散模型提取原视频每一帧的扩散特征;根据扩散特征计算原视频各帧之间的相似度,得到任意两帧之间的相似度热图;基于相似度热图判断出各帧内容的相似度,根据相似度对视频进行动态分段,获得多个视频片段;在每个视频片段中采样至少一帧关键帧;基于扩散特征计算当前查询关键帧与其他所有关键帧之间的相似度,对关键帧进行自适应注意力剪枝;将编辑后的关键帧信息传播到视频中的其余帧。本发明通过自适应注意力机制和关键帧选择技术,能够保持视频内容连贯性和一致性,减少计算资源消耗,并提高视频编辑的质量和效率。
-
公开(公告)号:CN118863010A
公开(公告)日:2024-10-29
申请号:CN202410982010.3
申请日:2024-07-22
Applicant: 厦门大学
IPC: G06N3/096 , G06N3/084 , G06N3/042 , G06N3/0455 , G06N3/0499 , G06V10/52 , G06F40/126 , G06F18/25 , G06V20/70 , G06V10/82 , G06N5/04 , G06N5/01
Abstract: 本发明提供一种面向大语言模型的多模态迁移学习方法,利用冻结的图像编码器提取多尺度的图像特征,与一个可学习的模态指示表征和所有的文本特征拼接输入大语言模型进行建模,在图像编码器和大语言模型的自注意力层后都设置轻量级的Adapter模块,迁移学习时仅需更新这些模块的参数即可;在图文问题上,本发明还利用交叉注意力机制在输入特征中生成能够衔接图像与文本的融合提示,更好地指导大语言模型生成更为准确的回答;同时,基于∈‑贪心算法事先搜索到融合提示在大语言模型中的最佳放置层K。本发明方法可实现以低成本、高效率的将大语言模型的通用知识快速迁移至特定多模态任务中,实现单模态和多模态文本指令之间的自动切换。
-
公开(公告)号:CN115049844B
公开(公告)日:2024-06-04
申请号:CN202210759217.5
申请日:2022-06-29
Applicant: 厦门大学
Abstract: 一种增强视觉信息流的图像描述生成方法,涉及人工智能领域。使用Faster‑RCNN提取网格特征作为图片网格特征表示;使用一个全景分割网络提取分割图转换成二值图作为这张图片的分割特征表示;将网格特征与分割特征展平,线性变换后送入可迭代的独立的层正则化模块中融合;用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;在所有的多头注意力模块中加入额外的残差连接。提出一个双信息流模型,通过引入分割特征作为另一条视觉信息源增强视觉信息对模型输出预测贡献程度。增强模型预测对视觉信息的依赖程度,使得每个词预测更集中于视觉内容。
-
公开(公告)号:CN116757248A
公开(公告)日:2023-09-15
申请号:CN202310758646.5
申请日:2023-06-26
Applicant: 厦门大学
Abstract: 一种参数高效的大规模预训练模型迁移方法,涉及大规模预训练模型。基于Transformer的大规模预训练模型,优化用于建立自注意力机制的提示向量,在注意力模块中插入提示学习逼近模块和经过扩展的自注意力模块,以降低提示学习带来的额外计算开销,提升信息扩散的效率。1)将提示学习逼近模块插入到Transformer模型的注意力机制中,并添加任务关联的分类器;2)在下游任务上进行微调,实现参数高效的大规模预训练模型的迁移。不仅实现更加高效的输入序列间关系建立,同时允许额外的提示向量遵循新的模式建立与输入序列的联系。在低成本地实现迁移的同时,尽可能降低带来的额外开销。
-
公开(公告)号:CN116071588A
公开(公告)日:2023-05-05
申请号:CN202310039443.0
申请日:2023-01-13
Applicant: 厦门大学
IPC: G06V10/764 , G06N3/0895 , G06V10/774
Abstract: 针对常见REC模型的弱监督训练方法,属于图像处理技术领域。用于根据现有弱监督指向性视觉理解模型,生成对应的伪标签,对现有任意的指向性视觉理解模型进行监督和训练。包括以下步骤:给定RGB图像和对应的文本描述,使用现有的弱监督指向性视觉理解模型,生成对应的伪标签,即图像中和文本描述对应的边界框,然后使用伪标签对任意的指向性视觉理解模型进行监督和训练,为减少伪标签的噪声影响,采用随机调整尺寸的数据增强和指数移动平均(EMA)策略,最终得到一个采用全监督方式进行训练的指向性视觉理解模型,取得更好的预测性能。
-
公开(公告)号:CN115049844A
公开(公告)日:2022-09-13
申请号:CN202210759217.5
申请日:2022-06-29
Applicant: 厦门大学
Abstract: 一种增强视觉信息流的图像描述生成方法,涉及人工智能领域。使用Faster‑RCNN提取网格特征作为图片网格特征表示;使用一个全景分割网络提取分割图转换成二值图作为这张图片的分割特征表示;将网格特征与分割特征展平,线性变换后送入可迭代的独立的层正则化模块中融合;用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;在所有的多头注意力模块中加入额外的残差连接。提出一个双信息流模型,通过引入分割特征作为另一条视觉信息源增强视觉信息对模型输出预测贡献程度。增强模型预测对视觉信息的依赖程度,使得每个词预测更集中于视觉内容。
-
-
-
-
-
-
-
-
-