-
公开(公告)号:CN114419374B
公开(公告)日:2025-01-10
申请号:CN202210067225.3
申请日:2022-01-20
Applicant: 上海商汤智能科技有限公司 , 中国科学院自动化研究所
IPC: G06V10/82 , G06V10/40 , G06V10/44 , G06V10/26 , G06V10/25 , G06V10/764 , G06V20/70 , G06N3/0464 , G06N3/045 , G06N3/088 , G06N3/0895
Abstract: 本申请实施例公开了一种模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品,其中该方法包括:基于第一图像样本,确定第一场景图像和第二场景图像;第一场景图像与第二场景图像之间具有重叠区域;利用待训练的第一模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第一场景特征和所述第二场景图像的第二场景特征,并利用第二模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第三场景特征和第二场景图像的第四场景特征;基于第一场景特征和第二场景特征、第三场景特征和第四场景特征,确定目标损失值;基于目标损失值,对第一模型的模型参数进行至少一次更新,得到训练后的第一模型。
-
公开(公告)号:CN114842307A
公开(公告)日:2022-08-02
申请号:CN202210776862.8
申请日:2022-07-04
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/778
Abstract: 本发明提供一种掩码图像模型训练方法、掩码图像内容预测方法和设备,涉及图像处理技术领域,解决了预测的掩码图像内容准确度较低的问题。训练方法包括:将多个图像样本对应的可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中,得到各可视化图像块对应的编码特征对,并将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至初始掩码图像模型中的初始解码模型中,得到各掩码图像块对应的解码结果对;再根据多个图像样本各自对应的第二数量个掩码图像块和解码结果对,对初始编码模型和初始解码模型的模型参数进行更新,训练得到的掩码图像模型可以准确地预测掩码图像块的图像内容,提高了预测结果的准确度。
-
公开(公告)号:CN114299296A
公开(公告)日:2022-04-08
申请号:CN202111586120.0
申请日:2021-12-21
Applicant: 上海商汤智能科技有限公司 , 中国科学院自动化研究所
IPC: G06V10/40
Abstract: 本公开涉及一种图像处理、缺陷检测方法及装置、电子设备和存储介质,所述图像处理方法包括:对根据待处理图像得到的第一输入特征图在通道维度进行分组全连接处理,得到中间输出特征图;对所述中间输出特征图在空间维度进行局部特征聚合,得到聚合特征图;对所述聚合特征图在通道维度进行全连接处理,得到目标输出特征图,其中,所述目标输出特征图用于表征所述待处理图像中的目标对象。本公开实施例可以提高全连接处理的处理效率。
-
公开(公告)号:CN117253164A
公开(公告)日:2023-12-19
申请号:CN202211511019.3
申请日:2022-11-29
Applicant: 深圳市腾讯计算机系统有限公司 , 中国科学院自动化研究所
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0464 , H04N21/234 , H04N21/2343
Abstract: 本申请涉及一种视频处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法可应用于人工智能领域,包括:对视频集的视频帧和媒体信息进行编码,并对编码所得的视频特征和媒体特征进行融合,得到多模态的第一融合特征;基于第一融合特征,对被掩膜处理的图像块和子媒体信息进行重构;根据重构图像块和图像块确定第一失真损失,根据重构子媒体信息与子媒体信息确定第二失真损失,以及根据视频特征和媒体特征确定对比学习损失;基于第一失真损失、第二失真损失和对比学习损失,对视频处理模型进行参数调整;基于通过收敛的视频处理模型对目标视频提取的多模态的第二融合特征进行视频相似性处理。采用本方法能够提高视频处理的准确性。
-
公开(公告)号:CN117218635A
公开(公告)日:2023-12-12
申请号:CN202211615059.2
申请日:2022-12-14
Applicant: 深圳市腾讯计算机系统有限公司 , 中国科学院自动化研究所
IPC: G06V20/62 , G06V20/40 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/047 , G06N3/08 , G10L15/26 , G10L15/02 , G10L15/04 , G10L15/16 , G10L25/57 , G10L25/30
Abstract: 本申请实施例公开了一种字幕识别方法、装置、设备、存储介质及程序产品;在本申请实施例中,获取待识别视频,以及获取待识别视频的待识别音频;对待识别视频进行视觉特征提取,得到待识别视频的视觉模态特征,以及对待识别音频进行声觉特征提取,得到待识别视频的声觉模态特征;根据视觉模态特征和声觉模态特征中至少一种模态特征,确定待识别视频的文本模态特征;对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理,得到待识别视频的多模态特征;根据多模态特征,对待识别视频进行字幕识别,得到待识别视频的字幕识别结果。本申请实施例可以提高字幕识别的准确度。
-
公开(公告)号:CN116030156B
公开(公告)日:2023-07-18
申请号:CN202310161883.3
申请日:2023-02-24
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06T11/00 , G06V10/74 , G06V10/774 , G06T5/50
Abstract: 本发明涉及图像处理技术领域,提供了一种图像重建模型的迭代方法和图像重建方法,其中图像重建模型的迭代方法包括:基于原始图像进行掩码,得到多个掩码图像;基于初始图像重建模型,对各个掩码图像中的掩码区域进行重建,得到所述各个掩码图像对应的重建图像;确定各个重建图像中两两重建图像之间的重叠区域,基于两两重建图像中重叠区域的区域特征之间的特征相似度,对所述初始图像重建模型进行参数迭代,得到图像重建模型,解决了传统方案中模型具有高度的不确定性和不一致性的问题,通过自洽机制可以使得不同重建图像之间的重叠区域保持一致,提升了模型的训练效率,同时优化了模型的预测准确率。
-
公开(公告)号:CN116030156A
公开(公告)日:2023-04-28
申请号:CN202310161883.3
申请日:2023-02-24
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06T11/00 , G06V10/74 , G06V10/774 , G06T5/50
Abstract: 本发明涉及图像处理技术领域,提供了一种图像重建模型的迭代方法和图像重建方法,其中图像重建模型的迭代方法包括:基于原始图像进行掩码,得到多个掩码图像;基于初始图像重建模型,对各个掩码图像中的掩码区域进行重建,得到所述各个掩码图像对应的重建图像;确定各个重建图像中两两重建图像之间的重叠区域,基于两两重建图像中重叠区域的区域特征之间的特征相似度,对所述初始图像重建模型进行参数迭代,得到图像重建模型,解决了传统方案中模型具有高度的不确定性和不一致性的问题,通过自洽机制可以使得不同重建图像之间的重叠区域保持一致,提升了模型的训练效率,同时优化了模型的预测准确率。
-
公开(公告)号:CN116310520B
公开(公告)日:2024-12-06
申请号:CN202310153095.X
申请日:2023-02-10
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06V10/764 , G06V10/40 , G06V10/74 , G06V10/82
Abstract: 本发明涉及图像处理技术领域,提供一种目标检测方法、装置、电子设备以及存储介质,其中方法包括:确定目标图像的多个图像块特征以及类别集合对应的类别特征集合;基于图像类别统一编码器,对图像块特征以及类别特征集合中的类别特征进行自注意力编码,基于得到的图像块编码特征与类别编码特征集合中各类别编码特征的相似度,确定目标类别编码特征用于目标检测,得到目标图像的目标检测结果。本发明提供的目标检测方法、装置、电子设备以及存储介质,通过图像类别统一编码器,以统一的方式为图像块和类别提取编码特征用于后续实现目标检测,从而实现了开放类别的目标检测,有效地在提升了目标检测模型在未见过类别上的泛化能力。
-
公开(公告)号:CN118941586A
公开(公告)日:2024-11-12
申请号:CN202410845624.7
申请日:2024-06-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于大型语言模型的图像分割方法、装置、电子设备,包括:获取待分割图像和问题文本,其中,问题文本用于指示待分割图像中的待分割目标;分别对所述待分割图像和问题文本进行特征提取处理,得到视觉嵌入向量和文本嵌入向量;基于所述视觉嵌入向量和所述文本嵌入向量确定所述待分割目标的中心点,并确定以所述中心点为起点的预设数量的射线,其中,所述射线的终点用于指示所述待分割目标的轮廓;基于所述预设数量的射线对所述待分割图像进行分割处理,得到所述待分割目标。通过中心点和以中心点为起点的预设数量的射线自适应地确定待分割目标的轮廓,能够精确保留待分割图像的轮廓形状信息,有效提高了图像分割时的分割精度。
-
公开(公告)号:CN118823383A
公开(公告)日:2024-10-22
申请号:CN202410779961.0
申请日:2024-06-17
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于图像和文本双指代的高分辨率目标感知方法、装置,包括:获取待识别图像、文本提示词和指代图像,其中,所述文本提示词和所述指代图像用于对所述待识别图像进行目标指代;对所述待识别图像进行图像特征提取处理,得到待识别图像词向量;对所述指代图像进行视觉特征提取处理,得到指代图像词向量;对所述文本提示词进行分词化处理,得到文本词向量;基于所述待识别图像词向量、所述指代图像词向量和所述文本词向量进行预测处理,得到与所述指代图像和所述文本提示词对应的答案。对待识别图像中的物体从图像和文本的双重角度进行指代描述,使得对待处理图像中的目标感知更加精确,进而生成的答案准确率更高。
-
-
-
-
-
-
-
-
-