一种基于视觉语言大模型的图像问答数据获取方法

    公开(公告)号:CN117972053A

    公开(公告)日:2024-05-03

    申请号:CN202410118365.8

    申请日:2024-01-29

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于视觉语言大模型的图像问答数据获取方法,包括获取图像数据集,并针对图像进行编码处理,获取图像嵌入;按照设定格式针对设定的提示数据进行编码处理,获取对应的提示嵌入;采用图像嵌入和提示嵌入,通过大语言模型,获取问答数据对和对应的预测概率向量;采问答数据对和对应的预测概率向量,通过指令评估器,获取问答数据对的评估得分;采用获取的问答数据对和真实问答数据对,通过计算交叉熵损失函数,优化大语言模型;采用评估得分和交叉熵损失函数,优化指令评估器;采用无问答数据标注的图像数据集,通过优化后的大语言模型和优化后的指令评估器,获取标注结果的图像问答数据;本发明方法的性能提升、效率增加、准确性增强。

    一种基于多尺度协作学习的通用物体检索方法

    公开(公告)号:CN117932104A

    公开(公告)日:2024-04-26

    申请号:CN202410118368.1

    申请日:2024-01-29

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于多尺度协作学习的通用物体检索方法,包括获取图像数据集,并针对得到的图像数据集进行预处理;构建多尺度分组协作学习检索模型;采用预处理后得到的图像数据集,训练、并优化构建的多尺度分组协作学习检索模型,获得最终的多尺度分组协作学习检索模型;采用构建的最终的多尺度分组协作学习检索模型,针对待检索的物体图片进行推理测试,完成检索处理;本发明方法利用分割一切模型提取图片中包括的潜在物体,通过分组协作度量学习对提取出的物体学习嵌入编码表示,再设计目标函数训练出一个通用物体检索的特征提取与编码模型;本发明方法的图像表示效果提高、检索效果增强、准确率提升。

Patent Agency Ranking