-
公开(公告)号:CN108664902A
公开(公告)日:2018-10-16
申请号:CN201810367098.2
申请日:2018-04-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及视频分类领域,提出了一种基于深度学习的端到端的视频拷贝检测方法,旨在解决在视频拷贝检测中,两段视频中存在多处拷贝片段的检测困难,及无法准确定位拷贝视频片段的位置等问题。该方法的具体实施方式包括:对用于进行视频拷贝检测的两段待检测视频进行镜头分割以选取关键帧;利用预先构建的拷贝关系识别模型对所选取出的多个关键帧进行识别,确定各关键帧之间的拷贝关系;根据所得到的各关键帧之间的拷贝关系,构建两段上述待检测视频全部关键帧的贝关系矩阵;将该拷贝关系矩阵作为预先构建的定位识别模型的输入,定位两段所述待检测视中含有拷贝关系的片段。本发明能够快捷、高效地检测出两段视频中存在的多处拷贝关系的视频片段。
-
公开(公告)号:CN104657468B
公开(公告)日:2018-07-31
申请号:CN201510075140.X
申请日:2015-02-12
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供种基于图像与文本的视频的快速分类方法,所述方法包括:分别关联多个视频的图像与多个视频类型、以及多个视频的文本与多个视频类型,从而生成对应视频类型的图像训练集及文本训练集;在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型,以及在每个所述文本训练集上提取文本特征信息进行训练从而创建文本预测模型;分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测,并对两个预测结果执行或运算作为检出类型。本发明所述方法能够实现对视频的快速分类。
-
公开(公告)号:CN104657468A
公开(公告)日:2015-05-27
申请号:CN201510075140.X
申请日:2015-02-12
Applicant: 中国科学院自动化研究所
CPC classification number: G06K9/627
Abstract: 本发明提供一种基于图像与文本的视频的快速分类方法,所述方法包括:分别关联多个视频的图像与多个视频类型、以及多个视频的文本与多个视频类型,从而生成对应视频类型的图像训练集及文本训练集;在每个所述图像训练集上分别提取图像特征信息进行训练从而创建图像预测模型,以及在每个所述文本训练集上提取文本特征信息进行训练从而创建文本预测模型;分别提取待检测的视频的图像特征信息在所述图像预测模型上和提取待检测的视频的文本特征信息在所述文本预测模型上进行预测,并对两个预测结果执行或运算作为检出类型。本发明所述方法能够实现对视频的快速分类。
-
公开(公告)号:CN103631932A
公开(公告)日:2014-03-12
申请号:CN201310655669.X
申请日:2013-12-06
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
CPC classification number: G06F17/30787
Abstract: 本发明公开了一种对重复视频进行检测的方法,该方法包括以下步骤:对数据库中的所有视频进行帧采样,提取每个视频的关键帧,以获取相应视频的关键信息;对提取得到的视频关键帧的局部特征和全局特征分别进行分析得到局部分析特征和全局分析特征;对局部分析特征和全局分析特征进行融合,得到一个对于视频变换鲁棒的索引特征,用于进行视频重复性检测;利用索引特征对于待检测视频进行重复视频的检测。利用本发明,可以快速高效的检测出重复视频。
-
公开(公告)号:CN103473555A
公开(公告)日:2013-12-25
申请号:CN201310376618.3
申请日:2013-08-26
Applicant: 中国科学院自动化研究所
IPC: G06K9/62
Abstract: 本发明公开了一种基于多视角多示例学习的恐怖视频识别方法,其包括:对训练视频集合中的视频提取视频镜头,并针对每个视频镜头选取情感代表帧和情感突变帧;对训练视频集合中每个视频镜头提取音频和视觉特征,其中视觉特征基于所提取的情感代表帧和情感突变帧提取;对于每一个视频提取其四个视角特征向量,构成训练视频集合的多视角特征集合;对所得到的训练视频集合对应的多视角特征集合和待识别视频的多视角特征向量进行稀疏重构,得到稀疏重构系数;根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差,进而确定待识别视频是否为恐怖视频。
-
公开(公告)号:CN114219936B
公开(公告)日:2025-03-28
申请号:CN202111266514.8
申请日:2021-10-28
Applicant: 中国科学院自动化研究所 , 人民中科(济南)智能技术有限公司
IPC: G06V10/25 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0895
Abstract: 本发明提供一种目标检测方法、电子设备、存储介质和计算机程序产品,方法包括获取包含待检测目标的待检测图像;将所述待检测图像输入至目标检测模型,进行目标检测,获得所述目标检测模型输出的目标检测结果,所述目标检测模型是基于候选框及其对应的正负标签训练得到的,所述正负标签是基于所述候选框与所述候选框对应的真实框的交并比,以及动态变化的交并比阈值确定得到的。本发明通过动态变化的交并比阈值,动态变化候选框的正负标签,以使最后分配给候选框的正负标签为准确标签,从而提高候选框的标签分配准确度,进而提高目标检测模型的召回率,最终实现高性能的目标检测。
-
公开(公告)号:CN119360893A
公开(公告)日:2025-01-24
申请号:CN202411523922.0
申请日:2024-10-29
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
Abstract: 本公开关于声音分类方法、装置、电子设备、存储介质和计算机程序产品,包括:提取待分类的声音信号的音频特征;将音频特征输入脉冲残差模块,获得第一脉冲残差特征;将第一脉冲残差特征输入至少一个脉冲残差模块,获得第二脉冲残差特征;将第二脉冲残差特征以及经过下采样后的第一脉冲残差特征输入注意力特征融合模块,获得第一注意力融合特征;基于第一注意力融合特征,对待分类的声音信号进行分类。本公开可以充分利用脉冲神经网络(SNN)和残差神经网络的优势,可以实现高效、准确的进行声音分类,并可以显著降低系统功耗。
-
公开(公告)号:CN119314020A
公开(公告)日:2025-01-14
申请号:CN202411423624.4
申请日:2024-10-12
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及目标识别技术领域,公开了基于脉冲神经网络的视觉识别方法及装置,包括:对预设动态目标的视频样本数据进行脉冲编码得到脉冲序列,输入预设的脉冲神经网络进行残差计算,对脉冲网络输出特征进行长短期时序特征提取,将提取出的长短期时序特征与脉冲网络输出特征进行融合得到目标融合特征,计算目标融合特征的损失值,对脉冲神经网络进行反向迭代更新,得到目标长短期时序特征融合模型;将待识别的动态目标的视频流数据输入到长短期时序特征融合模型得到识别结果。本发明通过结合长短期时序特征提取,克服了现有脉冲神经网络在捕捉和识别动态数据时无法有效利用时序信息进行动态数据识别的缺陷,提升对于动态数据的视觉识别准确性。
-
公开(公告)号:CN118885942B
公开(公告)日:2024-12-06
申请号:CN202411357043.5
申请日:2024-09-27
Applicant: 中国科学院自动化研究所
IPC: G06F18/2433 , G06N3/0455 , G06N3/0499 , G06N3/08 , G06F18/23213 , G06F18/2413 , G06F18/27
Abstract: 本发明提供一种基于价格模式聚类学习的歧视定价识别方法以及装置,应用于人工智能领域,上述方法包括:获取包含歧视定价场景下的订单数据;针对类别数据、时间数据以及数值数据分别进行预处理,得到订单数据集;将非歧视定价子集输入至非歧视编码器,得到非歧视编码序列;将歧视定价子集输入至歧视编码器,得到歧视编码序列;将非歧视编码序列与歧视编码序列,分别输入至非歧视定价解码器与歧视定价解码器,得到非歧视预测价格与歧视预测价格;基于订单数据的真实价格分别与非歧视预测价格与歧视预测价格进行比较,得到用于表示真实价格为非歧视定价或歧视定价的定价识别结果。通过本发明能够实时对歧视定价行为进行准确识别。
-
公开(公告)号:CN118535765B
公开(公告)日:2024-12-06
申请号:CN202411003383.8
申请日:2024-07-25
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06N3/0455 , G06N3/0464 , G06V20/62 , G06N3/0895 , G06F18/22
Abstract: 本发明涉及跨模态技术领域,提供一种跨模态模型的训练方法、装置、设备和存储介质,包括视频编码器提取第一视频特征,文本编码器提取第一文本特征以及文本掩码特征、同一词汇空间下的第二视频特征与第二文本特征、同一词汇空间下的第三视频特征与第三文本特征;基于第二视频特征与第二文本特征获取第一全局损失函数,基于第二视频特征与文本掩码特征获取第二全局损失函数;基于第一视频特征、第一文本特征以及感知器获取第一局部损失函数;基于第一视频特征、文本掩码特征以及感知器获取第二局部损失函数;基于第一全局损失函数、第二全局损失函数、第一局部损失函数、第二局部损失函数、掩码损失函数进行训练。实现缓解模态鸿沟的问题。
-
-
-
-
-
-
-
-
-