一种基于生成式语言模型的多模态人脸检索方法

    公开(公告)号:CN118656511A

    公开(公告)日:2024-09-17

    申请号:CN202410798511.6

    申请日:2024-06-20

    Abstract: 本发明属于人脸识别领域,具体涉及一种基于生成式语言模型的多模态人脸检索方法,包括:建立生成式语言模型,对生成式语言模型进行训练,向训练完成后的生成式语言模型输入行人图片和对应的描述性文本进行人脸检索,得到检索结果。本发明构建了一个强大建模能力的生成式语言模型,可以获取语义更加丰富的文本表示,并通过引入特殊标记,使文本描述和图像内容可以更好的互补,增强了模型的理解能力,还实现了多任务的联合训练,包括文本生成、视觉问答、人脸检测和人脸检索,不同任务的学习可以相互促进,提高模型的泛化能力,弥补了基于生成式语言模型进行人脸检测和人脸检索任务的空白。

    一种基于多粒度联想学习的手绘图像实时检索方法

    公开(公告)号:CN113886615B

    公开(公告)日:2024-06-04

    申请号:CN202111241283.5

    申请日:2021-10-25

    Abstract: 本发明属于图像检索领域,具体涉及一种多粒度联想学习的手绘图像实时检索方法,包括:采用三重态损失函数与多粒度联想学习方法训练改进的深度神经网络模型,训练好的深度神经网络模型提取草图分支的嵌入向量,将其送入判别器判断该草图分支的等级,再将该草图分支送入等级对应的降维层,计算草图分支与图像间的欧式距离,根据欧式距离,返回检索到的top‑k张图片;本发明设计多阶段模型,避免不完整草图的多样性混淆,提出一种渐进式不完整草图的多粒度关联学习方法,使得每个不完整草图的嵌入空间逼近后续草图及其对应目标照片的嵌入空间,尽可能以最少的草图笔画检索出目标图片。

    一种基于大语言模型和语法树的人脸图像标题生成方法

    公开(公告)号:CN117576498A

    公开(公告)日:2024-02-20

    申请号:CN202311370479.3

    申请日:2023-10-20

    Abstract: 本发明属于大语言模型应用领域和数据集标注领域,涉及一种基于大语言模型和语法树的人脸图像标题生成方法,所述方法包括获取人脸图像,并使用人脸检测模型进行人脸区域检测;使用神经网络模型对人脸图像进行属性预测,获取人脸图像各个视觉属性并生成人脸特征表;使用概率上下文无关算法对人脸特征表构造标题语法树,生成多条上下文无关的语句;使用预训练的大规模语言模型,分别对每条上下文无关的语句进行改写,生成具有自然语言表达方式的描述语句;使用多模态模型对多条描述语句进行评分,选择评分最高的描述语句,作为对应人脸图像标题。本发明能够自动高质量生成人脸图像和自然语言描述之间的匹配数据对。有利于相关任务的性能提升。

    基于多头类卷积自注意力的图像特征编码方法、装置及电子设备

    公开(公告)号:CN116797678A

    公开(公告)日:2023-09-22

    申请号:CN202310780064.7

    申请日:2023-06-28

    Abstract: 本发明属于图像处理领域,涉及一种基于多头类卷积自注意力的图像特征编码方法、装置及电子设备;所述方法包括获取目标图像并进行预处理;提取出输入特征张量后进行展开操作,按照指定步长和子区域大小生成Q、K、V展开特征;使用可学习的Q、K和V类卷积权重参数,对应编码为一组自注意力特征;使用点积注意力机制计算多头注意力权重,将多头Q特征和多头K特征相互关联;将多头注意力权重应用于多头V特征,融合子区域内的特征点信息,得到多头自注意力输出特征;利用多头混洗权重参数进行混洗操作;提取和整合目标图像的输出特征信息。本发明采用多头类卷积自注意力机制,提升了处理图像时的性能,改善了对图像底层局部特征的学习。

    一种基于特征块折叠的非局部性卷积建模方法及装置

    公开(公告)号:CN116246098A

    公开(公告)日:2023-06-09

    申请号:CN202310041708.0

    申请日:2023-01-12

    Abstract: 本发明属于图像识别技术领域,具体涉及一种基于特征块折叠的非局部性卷积建模方法及装置;该方法包括:构建FFNL模块,FFNL模块包括FF子模块、RFF子模块和NL子模块;将FFNL模块嵌入到普通卷积网络的浅层阶段,得到基于特征块折叠的非局部性卷积分类模型;获取训练数据并采用训练数据训练基于特征块折叠的非局部性卷积分类模型,得到训练好的基于特征块折叠的非局部性卷积分类模型;采用训练好的基于特征块折叠的非局部性卷积分类模型对待分类数据处理,得到分类结果;本发明可帮助卷积神经网络建立基于特征块的非局部特征学习机制,从而获得更大的有效感受野和更好的性能。

    一种基于多模态数据融合的手绘图像实时检索方法

    公开(公告)号:CN116244464A

    公开(公告)日:2023-06-09

    申请号:CN202310229513.9

    申请日:2023-03-10

    Abstract: 本发明属于动态草图检索领域,具体涉及一种基于多模态数据融合的手绘图像实时检索方法;该方法包括:使用完成训练的改进神经网络模型提取样本的图像特征与标签特征构建数据库,向模型输入目标图像的手绘草图和标签信息,得到草图的图像特征向量和标签特征向量;拼接草图的图像特征向量和标签特征向量,得到草图联合嵌入向量;计算草图联合嵌入向量和数据库中每个样本的联合嵌入向量的相似度,得到相似度集合;将相似度集合中的元素按照从大到小的顺序进行排序,取相似度最高的前K张样本图像作为最终的检索结果;本发明减少了手绘草图的早期检索时间,提高了检索效率。

    一种基于粒球计算及对比学习的图像标签噪声学习方法

    公开(公告)号:CN119478545A

    公开(公告)日:2025-02-18

    申请号:CN202411714645.1

    申请日:2024-11-27

    Abstract: 本发明公开了一种基于粒球计算和对比学习的图像标签噪声学习方法,包括:获取图片数据并对其进行预处理,将预处理好的图片数据输入到训练好的图像标签噪声学习模型中,得到图像分类的结果。该图像标签噪声学习网络的训练过程包括:获取图像训练数据集,对其预处理和数据增强;采用对比学习框架SimSiam分别提取强数据增强样本和弱数据增强样本的特征表示,将弱数据增强样本的特征表示输入粒球计算层,经聚类后将粒球样本的特征矩阵及其标签输入分类器得到图像分类结果p,计算分类损失;通过预测层对强数据增强样本的特征表示进行预测,以图像分类结果p为指示函数计算对比损失;通过对比损失和分类损失反向传播优化网络。本发明能够明显提升网络性能。

    一种素描绘画序列集自动生成方法

    公开(公告)号:CN114782586B

    公开(公告)日:2024-10-18

    申请号:CN202210497284.4

    申请日:2022-05-09

    Abstract: 本发明属于素描绘画序列集生成领域,具体涉及一种素描绘画序列集自动生成方法,包括通过预训练的结构线提取模型得到完整素描图像的结构线图像;对结构线图像进行预处理得到边缘线条集合;对边缘线条集合进行边缘处理,获取第二边缘序列集合;采用第二边缘序列集合绘制得到边缘序列集,并对其进行膨胀处理;将膨胀后的边缘序列集与完整素描图像进行点乘运算,得到素描绘画序列集,本发明的方法能够得到完整素描的绘制阶段图,用于图像检索的模型的训练,减少了图像检索模型训练样本获取的人力成本、时间成本。

    一种基于样本可信度的深度神经网络图像识别方法及系统

    公开(公告)号:CN113505821B

    公开(公告)日:2022-09-27

    申请号:CN202110726015.6

    申请日:2021-06-29

    Abstract: 本发明属于图像识别领域,具体涉及一种基于样本可信度的深度神经网络图像识别方法及系统,方法包括获取待处理的图像,将待处理的图像输入到训练好的深度神经网络模型中,再将每个图像传入预识别网络后的输出的结果,经过Softmax处理后的最大值,作为该图片的可信度,对于可信度高的图片,在经历浅层卷积模块后即得到识别结果,对于低可信度图片,将进入到下一层网络再次进行特征提取、预识别,再重复以上操作,即计算其可信度直到图片可信度达到高可信度或者最深层网络;本发明样本分流的方式,减少了网络的计算量,训练过程中实现可信样本与不可信样本的分层隔离训练,提高各自的识别准确率,与抗干扰能力。

Patent Agency Ranking