基于自我问答的可信多模态大模型推理方法及装置

    公开(公告)号:CN119003741A

    公开(公告)日:2024-11-22

    申请号:CN202411465874.4

    申请日:2024-10-21

    Abstract: 本发明提供一种基于自我问答的可信多模态大模型推理方法及装置,涉及人工智能技术领域,方法包括:获取多模态数据,并进行特征提取得到对应的多模态令牌特征;获取针对多模态数据的提问问题,将提问问题与多模态令牌特征输入到多模态大模型中进行第一问答;并将得到的第一回答文本以及提示词输入到多模态大模型进行第二问答,得到第二回答文本,确定第一回答文本与第二回答文本的相似度得分,当相似度得分大于相似度阈值时,将第一回答文本作为提问问题的回答文本。通过本申请,克服大语言模型在进行问答时过于依赖问答知识库,且生成的回答文本准确性和可信度低的缺陷。

    基于图文预训练模型的零样本异常检测方法、装置

    公开(公告)号:CN118864876A

    公开(公告)日:2024-10-29

    申请号:CN202410860540.0

    申请日:2024-06-28

    Abstract: 本发明提供一种基于图文预训练模型的零样本异常检测方法、装置,包括:对待检测样本图像进行图像特征提取,得到待检测样本图像的局部特征和全局特征;调用大语言模型生成针对待检测样本图像的正常描述文本和异常描述文本;将正常描述文本、异常描述文本分别与手工编写的文本模板、自适应学习的文本模板结合,对结合后的文本进行文本特征提取处理,得到正常文本特征和异常文本特征;基于局部特征、正常文本特征和异常文本特征进行特征交互,得到异常分数图;基于异常分数的最大值、全局特征、正常文本特征和异常文本特征判断待检测样本图像中是否存在异常。本发明可以在无需样本图像中的物品类别先验数据的情况下有效完成零样本异常检测任务。

    视频处理方法、装置、计算机设备和存储介质

    公开(公告)号:CN117253164A

    公开(公告)日:2023-12-19

    申请号:CN202211511019.3

    申请日:2022-11-29

    Abstract: 本申请涉及一种视频处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法可应用于人工智能领域,包括:对视频集的视频帧和媒体信息进行编码,并对编码所得的视频特征和媒体特征进行融合,得到多模态的第一融合特征;基于第一融合特征,对被掩膜处理的图像块和子媒体信息进行重构;根据重构图像块和图像块确定第一失真损失,根据重构子媒体信息与子媒体信息确定第二失真损失,以及根据视频特征和媒体特征确定对比学习损失;基于第一失真损失、第二失真损失和对比学习损失,对视频处理模型进行参数调整;基于通过收敛的视频处理模型对目标视频提取的多模态的第二融合特征进行视频相似性处理。采用本方法能够提高视频处理的准确性。

    基于自适应时空纠缠的视频行为识别方法、系统、设备

    公开(公告)号:CN113435430A

    公开(公告)日:2021-09-24

    申请号:CN202110992358.7

    申请日:2021-08-27

    Abstract: 本发明属于计算机视觉领域,具体涉及一种基于自适应时空纠缠的视频行为识别方法、系统、设备,旨在解决现有的行为识别方法未注意到时空线索对不同动作类的差异化影响,导致行为类别识别鲁棒性较差的问题。本方法包括从输入视频流中获取待行为识别的图像,作为输入图像;通过训练好的行为识别模型获取所述输入图像的行为类别;其中,所述行为识别模型基于卷积神经网络构建。本发明提高了行为类别识别的鲁棒性。

    一种图像分类方法、装置、电子设备及存储介质

    公开(公告)号:CN112801238B

    公开(公告)日:2021-07-27

    申请号:CN202110403926.5

    申请日:2021-04-15

    Abstract: 本发明提供一种图像分类方法、装置、电子设备及存储介质,该方法包括:确定待分类图像中每一像素的特征表示;基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。本发明提供的方法、装置、电子设备及存储介质,采用像素级的特征增强方式提高了对图像中细节的表达能力,提高了图像的分类准确性。

Patent Agency Ranking