-
公开(公告)号:CN119026684A
公开(公告)日:2024-11-26
申请号:CN202410832864.3
申请日:2024-06-26
Applicant: 中电鸿信信息科技有限公司
IPC: G06N5/04 , G06N3/0455 , G06F18/213 , G06F18/25 , G06V10/42
Abstract: 本发明提供了一种基于跨模态隐式局部学习的问答推理方法及系统,涉及自然语言处理技术领域。方法包括:获取训练特征数据集,对训练特征数据集进行配对,得到若干样本,每对样本都由图像、图像对应的问题描述文本和问题对应的答案组成。提取图像的图像特征,对问题描述文本进行掩码得到掩码问题描述文本;使用Transformer编码器对掩码问题描述文本进行特征提取,得到掩码问题描述文本特征。构建跨模态融合模块,将图像特征与掩码问题描述文本特征作为跨模态融合模块的输入,由掩码预测模块预测被掩码替换的字符。计算预测被掩码替换的字符与真实字符的相似度,设计整体优化目标函数对掩码预测模块进行优化。本发明在图像问答、物体识别、行人检索领域均有良好的应用前景。
-
公开(公告)号:CN119862573A
公开(公告)日:2025-04-22
申请号:CN202411923077.6
申请日:2024-12-25
Applicant: 中电鸿信信息科技有限公司
IPC: G06F21/56 , G06V20/40 , G06V30/148 , G06V10/82 , G06N3/094
Abstract: 本发明公开基于视频帧的视频多模态大模型越狱攻击方法、系统、设备和介质,方法包括:构建有害语料库;将视频分解成视频帧,利用有害语料库生成噪声并添加到视频帧,生成对抗性视频帧,将所有生成的对抗性视频帧合成视频越狱样本;通过固定视频越狱样本,找到最优的有害文本指令;将视频越狱样本和最优有害文本指令组合作为视频多模态大模型的联合输入,以评估待评价的视频多模态大模型的安全性能。本发明可以有效生成一个通用的视频越狱攻击样本攻击安全对齐后的视频多模态大模型,显著降低了越狱攻击多个不同多模态大模型带来的资源消耗。
-