视觉语言模型在定位任务中的性能评测方法及装置

    公开(公告)号:CN118736355A

    公开(公告)日:2024-10-01

    申请号:CN202410747440.7

    申请日:2024-06-11

    Abstract: 本发明提供一种视觉语言模型在定位任务中的性能评测方法及装置,其特征在于,定位任务包括基于属性区分的定位任务、基于关系区分的定位任务以及基于主次区分的定位任务,方法包括:构建用于视觉语言模型进行性能评测的评估数据集,针对评估数据集中的评估样本,通过视觉语言模型对评估样本执行定位任务,得到评估样本中的定位热图,根据定位热图确定评估样本的性能评测得分;确定性能评测得分的平均值为评估数据集的平均准确率作为视觉语言模型的性能评测结果。通过本申请,能够验证视觉语言模型在区分属性、区分关系以及区分主次三个维度的组合推理能力,用以解决现有技术中预训练的视觉语言模型在组合推理能力方面表现差的缺陷。

Patent Agency Ranking