一种基于图像检测自然语言描述目标的方法及电子设备

    公开(公告)号:CN120032149A

    公开(公告)日:2025-05-23

    申请号:CN202510469031.X

    申请日:2025-04-15

    Abstract: 本申请公开了一种基于图像检测自然语言描述目标的方法,包括:将待检测图像输入至已训练的用于将输入图像转换为具有图像详细描述数据并对图像详细描述数据中的文本实例进行定位描述的详细定位描述数据的专家模型,通过专家模型的推理,得到详细定位描述数据,详细定位描述数据包括:图像详细描述数据、以及与图像详细描述数据中的文本实例相对应的图像实例描述数据,利用待检测图像的详细定位描述数据,获取待检测图像中与文本实例所表征的自然语言描述目标相匹配的候选目标。本申请有利于提高自然语言所描述目标检测的准确性。

    一种多模态大模型的优化方法、装置和电子设备

    公开(公告)号:CN119940557A

    公开(公告)日:2025-05-06

    申请号:CN202510436082.2

    申请日:2025-04-09

    Abstract: 本申请公开了一种多模态大模型的优化方法、装置和电子设备,方法包括:对基础多模态大模型进行训练,得到过程奖励模型;利用基础多模态大模型对训练图像进行图像描述的逐句推理;针对推理得到的每个当前句,利用所述过程奖励模型确定所述当前句的各个候选描述是否正确,将所述当前句的正确候选描述用于图像描述的下一句推理;基于逐句推理所得各句描述中成对的正确候选描述和错误候选描述,确定成对的正确图像描述和错误图像描述,作为过程监督数据;基于训练图像和所述过程监督数据对所述基础多模态大模型进行优化,得到抑制幻觉的多模态大模型。应用本申请,能够在进行图像描述时有效改善幻觉抑制的性能。

    一种模型评估方法、装置及存储介质

    公开(公告)号:CN117312814A

    公开(公告)日:2023-12-29

    申请号:CN202311229400.5

    申请日:2023-09-21

    Abstract: 本申请公开了一种模型评估方法、装置及存储介质,涉及自主学习技术领域,可以减少模型评估过程中样本数据的标定数量,降低标定代价。该方法包括:获取样本数据;根据样本数据的数据特征,对样本数据进行聚类,得到多个样本簇;根据样本数据输入待评估模型得到的预测标签,确定多个样本簇的标签一致性;标签一致性用于表示预测标签的相同度;根据待评估模型的评估参数,确定待评估模型的评估结果;评估参数包括多个样本簇的标签一致性。

    自主学习方法、装置、电子设备及机器可读存储介质

    公开(公告)号:CN114444717A

    公开(公告)日:2022-05-06

    申请号:CN202210089870.5

    申请日:2022-01-25

    Inventor: 王金

    Abstract: 本申请提供一种自主学习方法、装置、电子设备及机器可读存储介质,该方法包括:当确定满足自主学习触发条件时,收集当期训练数据;依据所述当期训练数据、历史高价值样本,以及获取到的有标签数据,对第一模型进行在线训练,得到第二模型;依据所述第二模型对所述第一模型进行更新。该方法可以实现模型的持续进化,并在保证模型对新数据的处理性能的情况下,有效缓解模型对旧知识的遗忘。

    行人身份识别方法、装置、设备及存储介质

    公开(公告)号:CN110795972A

    公开(公告)日:2020-02-14

    申请号:CN201810876429.5

    申请日:2018-08-03

    Inventor: 王金

    Abstract: 本发明公开了一种行人身份识别方法、装置、设备及存储介质,属于计算机技术领域,本发明实现了足迹特征与步态特征的交叉识别,可以在行人的步态特征与行人的足迹特征之间相互转换,在行人没有在案发现场遗留足迹的场景中,通过步态足迹转换模型,能够将步态特征转换为足迹特征,从而在没有得到足迹图像的限制下,也能在足迹数据库中进行检索。另外,在没有拍摄到行人的视频的场景中,通过足迹步态转换模型,能够将足迹特征转换为步态特征,从而在没有得到视频的限制下,也能在步态数据库中进行检索,提高了识别行人身份的有效信息量,增加了破案线索。

    步态识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN111950321B

    公开(公告)日:2023-12-05

    申请号:CN201910398564.8

    申请日:2019-05-14

    Inventor: 王金

    Abstract: 本发明公开了一种步态识别方法、装置、计算机设备及存储介质,属于计算机技术领域。所述方法包括:获取目标行人的图像序列;根据所述目标行人的图像序列,获取所述目标行人的轮廓剪影图像序列和多个姿态点的位置信息;根据所述目标行人的轮廓剪影图像序列和多个姿态点的位置信息,获取合成图像序列;基于所述合成图像序列进行步态识别,得到所述目标行人的身份信息。本发明基于合成图像序列进行步态识别,得到目标行人的身份信息,可以提高步态识别结果的可靠性。

    一种数据处理方法、装置及设备

    公开(公告)号:CN113705648A

    公开(公告)日:2021-11-26

    申请号:CN202110956614.7

    申请日:2021-08-19

    Inventor: 王金

    Abstract: 本申请提供一种数据处理方法、装置及设备,该方法包括:对目标类别对应的所有目标框的无标签数据特征进行聚类,得到所述目标类别对应的至少一个无标签聚类中心;确定无标签聚类中心与所述目标类别对应的有标签聚类中心之间的距离;基于所述距离确定所述无标签聚类中心的伪标签类型;基于所有目标类别对应的所有无标签聚类中心的伪标签类型,统计正报类型的伪标签类型的第一数量和误报类型的伪标签类型的第二数量;基于第一数量和第二数量确定机器学习模型是否需要重新训练;若是,则对所述机器学习模型进行重新训练,基于训练后的机器学习模型对待检测图像进行数据处理。通过本申请的技术方案,能够避免触发时机滞后,避免训练资源的浪费。

    步态识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN111950321A

    公开(公告)日:2020-11-17

    申请号:CN201910398564.8

    申请日:2019-05-14

    Inventor: 王金

    Abstract: 本发明公开了一种步态识别方法、装置、计算机设备及存储介质,属于计算机技术领域。所述方法包括:获取目标行人的图像序列;根据所述目标行人的图像序列,获取所述目标行人的轮廓剪影图像序列和多个姿态点的位置信息;根据所述目标行人的轮廓剪影图像序列和多个姿态点的位置信息,获取合成图像序列;基于所述合成图像序列进行步态识别,得到所述目标行人的身份信息。本发明基于合成图像序列进行步态识别,得到目标行人的身份信息,可以提高步态识别结果的可靠性。

    视觉问答多模态大模型建立方法和装置

    公开(公告)号:CN120012832A

    公开(公告)日:2025-05-16

    申请号:CN202510506137.2

    申请日:2025-04-22

    Inventor: 郑仕达 王金

    Abstract: 本发明实施例提出视觉问答多模态大模型建立方法和装置。方法包括:A1、获取第一训练数据集,每一条训练数据包括:至少一训练图像、一复杂提示词和一最佳回答;复杂提示词包括问题,还包括背景文本、约束指令二者中的至少之一;A2、从第一训练数据集中抽取一条训练数据,将该条训练数据中的图像和复杂提示词输入待训练的视觉问答多模态大模型,视觉问答多模态大模型输出预测回答;根据预测回答和该条训练数据中的最佳回答,计算损失值;采用损失值对视觉问答多模态大模型的参数进行调整;返回步骤A2,直至达到训练结束条件。本发明实施例提高了视觉问答的准确度。

    多模态大模型训练方法、目标检测方法、装置及电子设备

    公开(公告)号:CN119903348A

    公开(公告)日:2025-04-29

    申请号:CN202510399045.9

    申请日:2025-03-31

    Abstract: 本申请实施例提供了一种多模态大模型训练方法、目标检测方法、装置及电子设备,涉及人工智能技术领域,多模态大模型训练方法包括:获取多个样本图像和图像中对象标注框的第一样本描述文本;利用第一大语言模型和第一文本提示,提取每一样本图像对应的第一样本描述文本所描述的对象的类别名称以及属性,并将得到的类别名称与属性中的至少一个进行组合,得到第二样本描述文本;确定该样本图像中每一对象标注框与对应的多个第二样本描述文本的每一属性是否相匹配;构建包含第二样本描述文本的样本问题以及对应的思维链形式的样本回答,得到问答样本对;利用构建的问答样本对进行多模态大模型的训练。可以降低描述性目标检测的复杂性,提高检测效率。

Patent Agency Ranking