-
公开(公告)号:CN118568487A
公开(公告)日:2024-08-30
申请号:CN202410548464.X
申请日:2024-05-06
IPC分类号: G06F18/214 , G06F18/25 , G06F18/2431 , G06N3/042
摘要: 本申请实施例提供一种多模态轻量级动态知识增强方法、装置及存储介质,所述方法包括:基于图像小样本集的向量表征和文本小样本集的向量表征,以多模态视觉码书的形式构建图像小样本知识库和文本小样本知识库;基于单模态搜索的方式从所述图像小样本知识库或所述文本小样本知识库中确定待融合表征的跨模态表征,融合所述待融合表征和所述跨模态表征,得到知识增强后的融合表征。本申请实施例提供的多模态轻量级动态知识增强方法、装置及存储介质,在现有大规模预训练多模态模型的强大表征学习基础上,融合罕见且细粒度的跨模态表征信息,以此提高原始表征的质量,并显著提升对特定信息的检索效率。
-
公开(公告)号:CN112215908A
公开(公告)日:2021-01-12
申请号:CN202011086137.5
申请日:2020-10-12
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
摘要: 本发明属于计算机视觉领域,具体涉及一种面向压缩域的视频内容比对系统、优化方法、比对方法,旨在为了解决使用全解码信息完成视频内容比对效率不高的问题。本发明比对系统包括:特征学习模块,基于输入视频的多种压缩域信息,分别获取多种模态的特征图;多模态压缩域信息融合模块,对所述特征学习模块输出的多种模态的特征图进行信息融合,得到所述输入视频的融合特征向量;第二模块,配置为获取两个输入视频的融合特征向量的L1距离;分类器为二分类网络,配置为基于所述第二模块输出的L1距离进行比对结果的二分类。本发明可以有效地提取视频内容的高层语义信息,保证了视频内容的比对高速度和高性能。
-
公开(公告)号:CN112215908B
公开(公告)日:2022-12-02
申请号:CN202011086137.5
申请日:2020-10-12
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
摘要: 本发明属于计算机视觉领域,具体涉及一种面向压缩域的视频内容比对系统、优化方法、比对方法,旨在为了解决使用全解码信息完成视频内容比对效率不高的问题。本发明比对系统包括:特征学习模块,基于输入视频的多种压缩域信息,分别获取多种模态的特征图;多模态压缩域信息融合模块,对所述特征学习模块输出的多种模态的特征图进行信息融合,得到所述输入视频的融合特征向量;第二模块,配置为获取两个输入视频的融合特征向量的L1距离;分类器为二分类网络,配置为基于所述第二模块输出的L1距离进行比对结果的二分类。本发明可以有效地提取视频内容的高层语义信息,保证了视频内容的比对高速度和高性能。
-
公开(公告)号:CN109815789A
公开(公告)日:2019-05-28
申请号:CN201811514183.3
申请日:2018-12-11
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
摘要: 本发明涉及人脸检测技术领域,具体涉及一种在CPU上实时多尺度人脸检测方法与系统及相关设备,目的在于降低人脸检测的硬件成本,提高人脸检测的速度与准确度。本发明的人脸检测系统包括:特征提取模块、多尺度检测模块和非极大值抑制模块。其中,特征提取模块配置为:从待检测图像中提取关键特征,得到多尺度的待检测特征图;多尺度检测模块配置为:根据多尺度的待检测特征图预测人脸得分和相应的位置;非极大值抑制模块配置为:根据人脸得分进行非极大值抑制,从而得到检测结果。本发明降低了人脸检测的硬件成本,提高了多尺度人脸检测的速度与准确度,能在CPU上实现准确率较高的多尺度人脸检测功能,继而可以应用在手机等平台上。
-
公开(公告)号:CN112235569B
公开(公告)日:2024-03-29
申请号:CN202011086957.4
申请日:2020-10-12
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC分类号: H04N19/107 , H04N19/109 , H04N19/11 , H04N19/124 , H04N19/139 , H04N19/91 , G06V20/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/08 , G06T7/207 , G06T7/246
摘要: 本发明属于计算机视觉领域,具体涉及了一种基于H264压缩域的快速视频分类方法、系统及装置,旨在解决现有视频分类技术速度慢、模型复杂度高的问题。本发明包括:提取H264标准的视频的I帧、P帧和B帧数据;进行I帧的解码及P帧和B帧的熵解码,获得I帧图像及视频帧之间的运动矢量;分别构建高低时间分辨率模型,并通过时间尺度注意力模块建模不同时间分辨率的特征进行模型融合;基于I帧图像和帧之间的运动矢量,获取四个初步预测分类;进行四个初步预测分类的加权融合,获得最终的预测分类结果。本发明无需进行所有视频帧的全解码,模型参数量小,可以有效提高视频分类速度,并能很好地识别视频中快慢不同的运动信息,实用性更强。
-
公开(公告)号:CN112235569A
公开(公告)日:2021-01-15
申请号:CN202011086957.4
申请日:2020-10-12
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC分类号: H04N19/107 , H04N19/109 , H04N19/11 , H04N19/124 , H04N19/139 , H04N19/91 , G06K9/00 , G06K9/62 , G06N3/04 , G06N3/08 , G06T7/207 , G06T7/246
摘要: 本发明属于计算机视觉领域,具体涉及了一种基于H264压缩域的快速视频分类方法、系统及装置,旨在解决现有视频分类技术速度慢、模型复杂度高的问题。本发明包括:提取H264标准的视频的I帧、P帧和B帧数据;进行I帧的解码及P帧和B帧的熵解码,获得I帧图像及视频帧之间的运动矢量;分别构建高低时间分辨率模型,并通过时间尺度注意力模块建模不同时间分辨率的特征进行模型融合;基于I帧图像和帧之间的运动矢量,获取四个初步预测分类;进行四个初步预测分类的加权融合,获得最终的预测分类结果。本发明无需进行所有视频帧的全解码,模型参数量小,可以有效提高视频分类速度,并能很好地识别视频中快慢不同的运动信息,实用性更强。
-
公开(公告)号:CN115690645A
公开(公告)日:2023-02-03
申请号:CN202211120031.1
申请日:2022-09-14
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC分类号: G06V20/40 , G06V10/764 , G06V10/82 , G06V10/77 , G06V10/46 , G06V10/44 , G06V10/42 , G06V10/50 , G06N3/0464 , G06N3/0442 , G06N3/0455 , G06N3/0895 , G10L25/51 , G10L25/30 , G10L25/03
摘要: 本发明提供一种视频检测方法、装置、设备、存储介质及程序产品,该方法包括:获取待处理视频;对待处理视频的图像进行视觉特征提取,得到视觉特征信息;对待处理视频的语音进行音频特征提取,得到音频特征信息;基于视觉特征信息和音频特征信息,确定待处理视频是否为安全视频。本发明提供的视频检测方法、装置、设备、存储介质及程序产品用于提高对待处理视频进行安全检测的准确性。
-
公开(公告)号:CN115019087A
公开(公告)日:2022-09-06
申请号:CN202210557333.9
申请日:2022-05-20
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC分类号: G06V10/764 , G06V10/774 , G06V10/80 , G06V10/77
摘要: 本发明提供一种小样本视频分类和分类模型训练方法及其装置,涉及计算机视觉技术领域,所述分类方法包括:将小样本分类任务输入预先构建的收敛的压缩域长短时Cross‑Transformer模型,获取压缩域信息;基于压缩域信息,获取短时融合的帧特征;基于短时融合的帧特征,获取查询特征,并输出基于查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,分类分数最大的支撑类别用于表示查询视频的分类结果。本发明可实现少量示例视频下的快速、高精度、高效率的小样本视频分类。
-
公开(公告)号:CN115019087B
公开(公告)日:2024-11-19
申请号:CN202210557333.9
申请日:2022-05-20
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC分类号: G06V10/764 , G06V10/774 , G06V10/80 , G06V10/77
-
公开(公告)号:CN118014049A
公开(公告)日:2024-05-10
申请号:CN202410177798.0
申请日:2024-02-08
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC分类号: G06N3/09 , G06N3/0455 , G06F18/22 , G06F18/2431 , G06F40/30 , G06V20/70 , G06V10/40 , G06V10/82
摘要: 本发明提供一种图文互生模型的训练方法,该方法包括:基于模态自感单元从样本模态数据中提取自感信息;模态自感单元基于自注意力网络通过多任务有监督训练得到;基于图文编码器对自感信息进行编码,得到隐空间特征,并对隐空间特征进行多模态扩散处理,得到扩散后的目标模态类型的隐空间特征;基于图文解码器对自感信息和扩散后的目标模态类型的隐空间特征进行解码,得到解码信息;根据解码信息和多任务损失函数对图文编码器和图文解码器进行训练,得到图文互生模型;目标损失包括重建损失、图像类的理解辅助任务对应损失和文本类的理解辅助任务对应损失确定。本发明所述方法提高了图文互生对应模型的性能和可适配性。
-
-
-
-
-
-
-
-
-