基于多模态大模型灵活关联控制的图像问答方法

    公开(公告)号:CN119992424A

    公开(公告)日:2025-05-13

    申请号:CN202510201200.1

    申请日:2025-02-24

    Abstract: 本发明公开了一种基于多模态大模型灵活关联控制的图像问答方法,首先生成图像和对应文字描述的非关联性特征表示,然后生成图像和定制提示的关联性特征表示,计算每层非关联性特征表示和关联性特征表示的余弦距离,并根据余弦距离筛选得到关键层,对于每个关键层,通过其非关联性特征表示和关联性特征表示计算关联控制向量,在进行图像问答时,在关键层中应用对应的关联控制向量对生成特征表示进行关联控制,从而实现对多模态大模型的创造力和幻觉水平的动态控制。本发明采用灵活关联控制策略,无需额外训练就能高效地动态调节多模态大模型的关联能力,从而解决图像问答任务中的模型幻觉问题,显著增强了图像问答的准确性和创造性。

    基于通用潜在感染的对抗样本制备方法

    公开(公告)号:CN119068286A

    公开(公告)日:2024-12-03

    申请号:CN202411105388.1

    申请日:2024-08-13

    Abstract: 本发明公开了一种基于通用潜在感染的对抗样本制备方法,首先获取干净样本集和目标样本集,将目标样本集所包含的类别划分为已知类别和未知类别,将属于已知类别集合的目标样本构成目标样本集,构建包括特征提取器,尺寸匹配模块和生成器的对抗样本生成模型,该模型通过对目标样本提取特征并进行尺寸匹配后叠加至生成器对应的感染层输入,从而对干净样本进行感染生成对抗样本;采用训练样本集对对抗样本生成模型进行训练,然后对于干净样本集中每个干净样本,任意选择一个与其类别不同的目标样本一起输入训练好的对抗样本生成模型生成对抗样本。本发明所构建的对抗样本生成模型支持基于任何目标样本生成对抗样本,从而提高对抗样本生成的通用性。

    针对目标检测模型的对抗训练方法

    公开(公告)号:CN118966314A

    公开(公告)日:2024-11-15

    申请号:CN202411119125.6

    申请日:2024-08-15

    Abstract: 本发明公开了一种针对目标检测模型的对抗训练方法,首先收集干净样本构成训练样本集将目标检测模型初步训练到收敛,然后依次生成置信度任务对抗样本集、分类任务对抗样本集和定位任务对抗样本集,并分别采用各个对抗样本集对目标检测模型进行对抗训练,在对抗训练时计算损失函数对目标检测模型中各个参数的梯度敏感度,将高梯度敏感度的参数进行更新,其他参数则不更新,循环以上过程进行对抗训练直到达到对抗训练结束条件。本发明通过拆分对抗训练任务并生成不同对抗样本进行参数更新,从而减轻不同任务之间的梯度冲突,在不增加网络容量的情况下,平衡目标检测模型在对抗样本上的鲁棒性和在干净样本上的准确率。

    基于解耦再融合控制的故事分镜生成方法

    公开(公告)号:CN118262003A

    公开(公告)日:2024-06-28

    申请号:CN202410479956.8

    申请日:2024-04-19

    Abstract: 本发明公开了一种基于解耦再融合控制的故事分镜生成方法,首先对故事文本进行处理,得到角色和场景的文字提示,根据角色和场景的预设参考图像对预训练好的稳定扩散模型进行微调,得到每个场景或角色所对应的模型参数和对应的嵌入向量,然后生成每个句子中的角色图像和场景图像,以及角色中间图像和场景中间图像,从角色图像中提取出前景掩码图像并据此将角色和场景中间图像进行融合得到融合图像,然后采用角色和场景所对应稳定扩散模型的参数对后续去噪过程进行协同控制,将最终生成图像作为句子所对应的故事分镜图像。本发明综合考虑角色的视觉一致性和场景的上下文相关性,从而提升所生成分镜图像之间的逻辑连贯性。

    一种动态场景下基于文本的目标检测方法

    公开(公告)号:CN111898598B

    公开(公告)日:2022-08-30

    申请号:CN202010629399.5

    申请日:2020-07-03

    Abstract: 本发明公开了一种动态场景下基于文本的目标检测方法,构建了隐性记忆和显性记忆两种记忆机制,通过隐性记忆保存模型的重要程度,且通过重要程度去约束下一批次的训练,以及通过显性记忆保存难以迁移的数据,将难以迁移的数据放入下一批次的训练集中进行训练,能够有效的帮助神经网络模型进行记忆,避免了神经网络模型在动态场景下的灾难性遗忘问题。

    一种基于语义偏好的快速图像检索方法

    公开(公告)号:CN114911958A

    公开(公告)日:2022-08-16

    申请号:CN202210647107.X

    申请日:2022-06-09

    Abstract: 本发明公开了一种基于语义偏好的快速图像检索方法,首先以语义(标签)关联度指导训练语义中心分配模块,得到语义中心矩阵V,然后基于语义中心矩阵V,对固定特征提取模块进行训练,这样通过依照语义关联度约束语义中心在特征空间的分布,并令特征向量朝着对应语义中心聚集,从而在语义关联度的指导下充分利用特征空间,有效避免了具备不同标签的特征向量的混淆,解决了特征分布不合理的情况,有效避免不同类特征向量的混淆,提升检索准确度;其次,本发明为码字指定了语义偏好,实现了不可导的量化损失与有偏的软量化损失之间的折衷,采用偏差较低的方案优化码字,从而提升量化器性能,以保证执行快速检索时,量化向量能更好地近似特征向量,实现了降低量化误差的目的。

    一种渐进式的端到端深度特征量化系统及方法

    公开(公告)号:CN109670057B

    公开(公告)日:2021-06-29

    申请号:CN201910005178.8

    申请日:2019-01-03

    Abstract: 本发明涉及图像检索领域,其公开了一种渐进式的端到端深度特征量化系统及方法,解决传统技术中由于特征提取和量化两部分相互孤立,在数据库中的二进制编码长度需要变更时,需要重新训练神经网络并对整个数据库重新编码,而带来的耗费时间和运算资源的问题。该系统包括深度神经网络,所述深度神经网络包括:图像特征优化单元,用于将图片通过表示学习,生成用于描述图片的D维实数特征向量;特征量化单元,用于通过一个或多个量化层将特征向量转化为二进制编码;当使用多个量化层时,各个量化层的量化误差作为下一个量化层的输入,根据编码精度需求选择相应个数的量化层的量化输出的编码进行拼接,获得最终的二进制编码。

Patent Agency Ranking