-
公开(公告)号:CN118378153B
公开(公告)日:2024-12-06
申请号:CN202410834192.X
申请日:2024-06-26
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06F18/241 , G06N3/0464 , G06N3/049
Abstract: 本发明提供一种地面材质识别方法、装置、电子设备及存储介质,涉及数据处理技术领域,所述方法包括:采集待识别地面材质引气的压力变化时序数据,将预处理后的压力变化时序数据输入训练好的1D‑SNN模型进行地面材质识别,得到识别结果;其中,1D‑SNN模型是基于1D‑CNN和脉冲神经元构建的,1D‑CNN用于提取压力变化时序数据的局部时序特征,脉冲神经元用于提取压力变化时序数据的全局时序特征。本发明在面对地面材质的多样性和环境的复杂性时,有效提升地面材质识别的准确性和稳定性,进而增强智能车辆的适应性和安全驾驶能力。
-
公开(公告)号:CN118133241B
公开(公告)日:2024-09-13
申请号:CN202410552190.1
申请日:2024-05-07
Applicant: 中国科学院自动化研究所
IPC: G06F18/27 , G06F18/213 , G06N3/0455 , G06N3/0895 , G06N3/096
Abstract: 本发明涉及多模态技术领域,提供一种多模态预训练模型的训练方法、装置、设备和存储介质,包括:构建多模态预训练模型,包括视觉编码器、多语言编码器以及英文解码器;基于图像‑英文文本数据获取第一损失函数;基于多语言文本‑英文文本数据获取第二损失函数;基于目标文本‑图像数据应用于视觉编码器与多语言编码器进行对比学习获取第三损失函数;基于目标文本‑图像数据的相似度矩阵获取强负样本数据,基于强负样本数据与正样本数据应用于英文解码器获取第四损失函数;基于第一损失函数、第二损失函数、第三损失函数以及第四损失函数,得到训练好的多模态预训练模型。本发明既有效缓解对多语言‑图像数据的依赖,又直接有效的利用视觉特征。
-
公开(公告)号:CN118410210A
公开(公告)日:2024-07-30
申请号:CN202410845065.X
申请日:2024-06-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06N20/00
Abstract: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。
-
公开(公告)号:CN118227831A
公开(公告)日:2024-06-21
申请号:CN202410644212.7
申请日:2024-05-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/78 , G06F16/783 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及视频检索技术领域,提供一种跨模态视频检索方法、装置及电子设备,方法包括:提取查询文本的隐式特征和词表特征;基于特征提取模型,得到各候选视频的隐式特征和各候选视频的词表特征;基于查询文本的隐式特征与各候选视频的隐式特征之间的相似度以及查询文本的词表特征与各候选视频的词表特征之间的相似度,确定查询文本对应的检索视频;特征提取模型的词表特征训练阶段以最小化样本视频的词表特征与样本描述文本的词表特征之间的差异为训练目标,联合训练阶段以样本视频的隐式特征与样本描述文本的隐式特征之间的相似度作为软标签,最小化学生预测结果与软标签之间的差异为训练目标。本发明能够提高跨模态视频检索能力。
-
公开(公告)号:CN116778376B
公开(公告)日:2024-03-22
申请号:CN202310530291.4
申请日:2023-05-11
Applicant: 中国科学院自动化研究所
IPC: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/42 , G06V10/80
Abstract: 本发明提供一种内容安全检测模型训练方法、检测方法和装置,其中训练方法包括:获取第一样本视频,并提取第一样本视频的压缩域信息;提取第一样本视频中的各帧图像在标准色域下的多源特征;基于第一样本视频的压缩域信息和标准色域下的多源特征,对初始模型进行跨模态蒸馏学习,得到训练完成的内容安全检测模型。本发明提供的内容安全检测模型训练方法、检测方法和装置,相比于现有的逐帧提取标准色域信息,极大提高了信息提取效率,并利用标准色域下的多源特征,对初始模型进行跨模态蒸馏学习,从而提升了压缩域内容安全检测的性能,能够同时兼顾效率和性能。
-
公开(公告)号:CN117522771A
公开(公告)日:2024-02-06
申请号:CN202311220311.4
申请日:2023-09-20
Applicant: 中国科学院自动化研究所
IPC: G06T7/00 , G06V10/764
Abstract: 本发明提供一种图像质量评价方法及装置,该方法包括:根据各样本图像的质量分数预测值大于样本图像中其他样本的质量分数预测值的概率,确定质量分数预测值的排序索引估计值,质量分数预测值通过IQA模型得到;根据各样本图像的质量分数标签值大于样本图像中其他样本的质量分数标签值之间的概率,确定质量分数标签值的排序索引估计值;根据质量分数预测值的排序索引估计值和质量分数标签值的排序索引估计值,确定SROCC,根据SROCC确定IQA模型的损失值;根据IQA模型的损失值,基于梯度反向传播算法对IQA模型进行训练,基于训练好的IQA模型得到待评价图像的质量分数预测值。本发明实现将SROCC用于IQA模型的训练。
-
公开(公告)号:CN111612143B
公开(公告)日:2023-12-19
申请号:CN202010440475.8
申请日:2020-05-22
Applicant: 中国科学院自动化研究所
IPC: G06N3/082 , G06N3/084 , G06N3/0495 , G06N3/0464
Abstract: 本发明涉及一种深度卷积神经网络的压缩方法及系统,所述压缩方法包括:根据滤波器重要性选择方式和/或模型压缩率,确定待压缩深度卷积神经网络中不重要的滤波器;对不重要的滤波器施加渐进式稀疏约束,作为正则项加入到网络训练的损失函数中,得到优化损失函数;根据正则项,采用阈值迭代算法及反向传播算法联合求解,得到待压缩深度卷积神经网络的更新参数;基于所述优化损失函数及更新参数,获得具有滤波器稀疏形式的卷积神经网络模型;利用结构化剪枝算法,对所述具有滤波器稀疏形式的卷积神经网络模型进行剪枝,得到网络精度较高的压缩后的卷积神经网络模型。
-
公开(公告)号:CN116821417B
公开(公告)日:2023-12-12
申请号:CN202311082820.5
申请日:2023-08-28
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06F16/783 , G06N3/045 , G06V10/80 , G06V10/82 , G06V20/40
Abstract: 本发明实施例提供了一种视频标签序列生成方法和装置,其中,该方法包括:对样本视频内容和标题进行多模态特征提取得到多种特征编码;将多种特征编码输入到预训练的多模态混合编码器中进行特征融合,得到多模态混合特征;通过顺序提示模型为样本视频生成对应的顺序提示信息;将顺序提示信息与样本视频对应的标签进行对齐训练,得到每个顺序提示信息与标签的唯一对应关系;基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列,通过目标序列和多模态混合特征对顺序感知标签解码器进行训练,得到训练好的标签解码器。通
-
公开(公告)号:CN115422399B
公开(公告)日:2023-10-31
申请号:CN202210869119.7
申请日:2022-07-21
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06F16/783 , G06F16/78
Abstract: 本发明实施例提供一种视频搜索方法、装置、设备和存储介质,该方法包括:获取用户输入的搜索信息;根据搜索信息,从预设的多模态知识图谱中得到与搜索信息相关联的多模态信息;多模态信息包括搜索信息的扩展文本信息和视频特征信息;根据扩展文本信息和视频特征信息,基于搜索引擎确定目标视频。本发明实施例的方法通过多模态知识图谱,将用户的搜索信息扩展为更多模态的信息输入,进而基于扩展后的搜索信息,也就可以获得更加全面、更加准确的视频搜索结果,提升了视频搜索结果的准确性和全面性,解决了视频搜索过程中的误检和漏检问题。
-
公开(公告)号:CN113628245B
公开(公告)日:2023-10-31
申请号:CN202110786110.5
申请日:2021-07-12
Applicant: 中国科学院自动化研究所
IPC: G06Q10/08
Abstract: 本发明提供一种多目标跟踪方法、装置、电子设备和存储介质,所述方法包括:获取待检测的当前视频帧;基于目标检测网络,对所述当前视频帧进行多目标检测,得到检测结果;基于所述检测结果,对所述当前视频帧中的各目标进行目标跟踪;其中,所述目标检测网络包括若干组并行的目标检测分支和特征抽取分支;所述目标检测分支和特征抽取分支用于对所述当前视频帧的特征图中各个位置点进行处理。本发明提供的方法、装置、电子设备和存储介质,节省了目标检测和特征抽取的时间消耗,大大提升了目标跟踪的速度,从而能够实现多目标的实时性跟踪,并且增强了抽取特征的鉴别性,同时避免了不必要的人力消耗和资源消耗。
-
-
-
-
-
-
-
-
-