-
公开(公告)号:CN119578470A
公开(公告)日:2025-03-07
申请号:CN202510138089.6
申请日:2025-02-07
Applicant: 中国科学院自动化研究所
Abstract: 提供基于时间自擦除的神经网络的训练方法和设备。所述训练方法包括:针对每个时间步长,通过将训练样本输入卷积层,生成与所述时间步长对应的第一特征图;针对除了第一个时间步长之外的每个时间步长,通过将应用了随着每个时间步长而变化的擦除掩码的第一特征图输入池化层,生成第二特征图;通过将第二特征图输入第一全连接层,生成第一预测图;基于第一预测图和真实标签,生成损失;通过基于损失调整所述神经网络的参数,得到训练后的神经网络。因此,提高了整体的预测准确性,提高了计算效率,并且降低了计算开销。
-
公开(公告)号:CN119515771A
公开(公告)日:2025-02-25
申请号:CN202411384319.9
申请日:2024-09-30
Applicant: 中国科学院自动化研究所
IPC: G06T7/00 , G06T5/77 , G06T5/60 , G06N3/0455
Abstract: 本发明公开了一种基于多模态提示的图像质量评估模型训练方法。所述方法包括:步骤1、准备训练图像质量评估模型所需的数据集;步骤2、对参考样例和待评估图像的编码器进行训练;步骤3、搭建图像质量评估模型,以参考样例特征和待评估图像特征作为输入,以图像质量分数作为输出;步骤4、利用所述数据集训练图像质量评估模型,使用训练好的图像质量评估模型进行实际待评估图像的质量评估。本发明为无参考图像质量评估模型设计了一种新型的参考样例形式,由不同质量的失真图像及其对应的内容描述和外观描述组成,对图像质量评估准则有更好的理解,从而促进对未知图像质量评估的准确性。
-
公开(公告)号:CN119152331B
公开(公告)日:2025-01-21
申请号:CN202411604124.0
申请日:2024-11-11
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及视觉目标跟踪和人工智能领域,提供一种视觉目标跟踪模型的训练方法及装置、跟踪方法及装置,该训练方法包括:获取多对训练样本;将训练样本输入到特征嵌入模块,得到模板图像特征和搜索图像特征;利用特征提取模块,执行特征提取操作,得到第一提取结果和第二提取结果;利用特征融合模块,对第一提取结果和第二提取结果进行融合,得到融合结果;利用预测头,基于融合结果进行预测,得到预测跟踪结果;基于预测跟踪结果、真实标注信息和蒸馏标注信息得到训练损失,对模型进行训练,得到训练好的视觉目标跟踪模型。本公开解决现有的单流跟踪器存在一定的计算冗余、限制推理速度的问题,在保留高推理速度的同时,提高模型的精度。
-
公开(公告)号:CN118643865A
公开(公告)日:2024-09-13
申请号:CN202410542618.4
申请日:2024-04-30
Applicant: 中国科学院自动化研究所
Abstract: 本申请实施例提供一种基于不确定性定向极化和自适应插件的反蒸馏方法及装置,所述方法包括:获取用作教师网络的预训练母模型,所述预训练母模型是基于蒸馏损失和竞争损失训练得到的;基于所述预训练母模型、反蒸馏模型和反蒸馏插件获取目标模型,所述目标模型是基于反蒸馏损失和不确定性定向极化损失训练得到的,所述不确定性定向极化损失用于使所述目标模型对于样本扰动的极化方向保持不变。本申请实施例提供的基于不确定性定向极化和自适应插件的反蒸馏方法及装置,通过先训练一个没有反蒸馏能力的普通母模型作为教师模型,然后利用反蒸馏插件结合不确定性定向极化损失对模型进行优化,从而在保证模型性能的前提下,提高防御蒸馏攻击的效率。
-
公开(公告)号:CN114666571B
公开(公告)日:2024-06-14
申请号:CN202210214422.3
申请日:2022-03-07
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
Abstract: 本发明提供一种视频敏感内容检测方法及系统,该方法包括:对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;根据所述压缩域信息判断所述待检测视频的质量是否合格;在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。本发明降低了敏感内容检测的资源消耗,提高检测效率和检测准确率。
-
公开(公告)号:CN118133241A
公开(公告)日:2024-06-04
申请号:CN202410552190.1
申请日:2024-05-07
Applicant: 中国科学院自动化研究所
IPC: G06F18/27 , G06F18/213 , G06N3/0455 , G06N3/0895 , G06N3/096
Abstract: 本发明涉及多模态技术领域,提供一种多模态预训练模型的训练方法、装置、设备和存储介质,包括:构建多模态预训练模型,包括视觉编码器、多语言编码器以及英文解码器;基于图像‑英文文本数据获取第一损失函数;基于多语言文本‑英文文本数据获取第二损失函数;基于目标文本‑图像数据应用于视觉编码器与多语言编码器进行对比学习获取第三损失函数;基于目标文本‑图像数据的相似度矩阵获取强负样本数据,基于强负样本数据与正样本数据应用于英文解码器获取第四损失函数;基于第一损失函数、第二损失函数、第三损失函数以及第四损失函数,得到训练好的多模态预训练模型。本发明既有效缓解对多语言‑图像数据的依赖,又直接有效的利用视觉特征。
-
公开(公告)号:CN117216374A
公开(公告)日:2023-12-12
申请号:CN202310375092.0
申请日:2023-03-29
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC: G06F16/9535 , G06F16/958 , G06F16/583 , G06V10/40 , G06V10/74 , G06F18/22 , G06F18/214 , G06F16/335 , G06F18/25 , G06F40/205 , G06F40/30 , G06V10/80
Abstract: 本申请实施例公开了内容推荐方法、装置、计算机可读存储介质和计算机设备;通过预设内容推荐模型在图像样本中提取第一视觉特征,在查询文本样本中提取查询文本词特征;基于第一视觉特征和查询文本词特征计算图像样本和查询文本样本的相似度,基于相似度确定第一损失信息;获取缺陷文本样本,在缺陷文本样本中提取缺陷文本词特征,获取图像样本的第二视觉特征;根据第二视觉特征和缺陷文本词特征预测缺陷词,并预测缺陷词的修正词;根据缺陷文本的缺陷词、修正词以及查询文本样本确定第二损失信息;基于第一损失信息和第二损失信息对预设内容推荐模型进行收敛处理;通过训练后内容推荐模型对查询文本进行内容推荐处理。以此,提升内容推荐准确性。
-
公开(公告)号:CN117058023A
公开(公告)日:2023-11-14
申请号:CN202310967661.0
申请日:2023-08-02
Applicant: 中国科学院自动化研究所
IPC: G06T5/00
Abstract: 本发明提供一种ISP参数预测方法及装置,该方法包括:将待处理RAW图像输入特征提取器中,得到第一特征矩阵;将第一特征矩阵输入自注意力层,得到自注意力层输出的注意力图,将注意力图输入多尺度Swin Transformer模型,得到第二特征矩阵;将第二特征矩阵输入第一分支和第二分支,得到待处理RAW图像中每个像素对应的ISP参数最优值和置信分数;将像素对应的ISP参数最优值和置信分数相乘后计算平均值,得到待处理RAW图像对应的ISP参数最优值。本发明对任意RAW图像均可自动预测最优ISP参数,且预测参数适用于全局图像,提高成像质量和效率。
-
公开(公告)号:CN115311595B
公开(公告)日:2023-11-03
申请号:CN202210771422.3
申请日:2022-06-30
Applicant: 中国科学院自动化研究所
IPC: G06V20/40 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08 , G10L25/18
Abstract: 本发明提供一种视频特征提取方法、装置及电子设备,涉及视频处理技术领域,可以应用于视频特征提取的场景。该视频特征提取方法包括:获取视频图像和视频图像对应的音频数据;将音频数据转换为声谱图,得到声谱图像;将视频图像和声谱图像输入至视频特征提取模型,得到视频特征提取模型输出的视频特征;其中,视频特征提取模型是基于样本视频数据和对偶式对比学习模型对基础神经网络模型进行预训练得到的,对偶式对比学习模型用于对样本视频数据经基础神经网络模型处理后输出的第一多模态样本特征矩阵分别进行行维度和列维度上的对比学习。本发明提供的技术方案可以提高视频特征提取的准确性和泛化性。
-
公开(公告)号:CN116824710A
公开(公告)日:2023-09-29
申请号:CN202310587326.8
申请日:2023-05-23
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06V40/40 , G06V40/16 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种伪造人脸鉴别方法、装置、设备和存储介质,将待鉴别图像输入人脸鉴别模型;获取人脸鉴别模型输出的待鉴别图像对应的鉴别结果;其中,人脸鉴别模型用于获取待鉴别图像的面部单元一致性特征,并基于待鉴别图像的面部单元一致性特征确定待鉴别图像对应的鉴别结果;待鉴别图像的面部单元一致性特征用于表征待鉴别图像的各面部单元相关区域之间的相关性;人脸鉴别模型是基于样本图像和样本图像对应的鉴别标签训练得到的,提升了对于未知造假方法合成的图像的鉴别效果。
-
-
-
-
-
-
-
-
-