-
公开(公告)号:CN117216580A
公开(公告)日:2023-12-12
申请号:CN202310550454.5
申请日:2023-05-15
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
Abstract: 本申请公开了一种视频和文本的处理方法和装置、存储介质及电子设备。其中,该方法包括:利用目标视频的原始视频特征对目标文本的原始文本特征进行重构,得到重构文本特征,其中,原始文本特征包括N1个词向量,原始视频特征包括N2个视频帧向量;利用原始文本特征对原始视频特征进行重构,得到重构视频特征,其中,重构视频特征包括N2个重构视频帧向量,N2个重构视频帧向量包括N2个视频帧的重构视频帧向量;根据N1个词向量、N1个重构词向量、N2个视频帧向量以及N2个重构视频帧向量,确定目标文本与目标视频之间的语义相似度。本申请解决了相关技术中在在视频和文本的处理过程中出现的准确性较低的技术问题。
-
公开(公告)号:CN117216374A
公开(公告)日:2023-12-12
申请号:CN202310375092.0
申请日:2023-03-29
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC: G06F16/9535 , G06F16/958 , G06F16/583 , G06V10/40 , G06V10/74 , G06F18/22 , G06F18/214 , G06F16/335 , G06F18/25 , G06F40/205 , G06F40/30 , G06V10/80
Abstract: 本申请实施例公开了内容推荐方法、装置、计算机可读存储介质和计算机设备;通过预设内容推荐模型在图像样本中提取第一视觉特征,在查询文本样本中提取查询文本词特征;基于第一视觉特征和查询文本词特征计算图像样本和查询文本样本的相似度,基于相似度确定第一损失信息;获取缺陷文本样本,在缺陷文本样本中提取缺陷文本词特征,获取图像样本的第二视觉特征;根据第二视觉特征和缺陷文本词特征预测缺陷词,并预测缺陷词的修正词;根据缺陷文本的缺陷词、修正词以及查询文本样本确定第二损失信息;基于第一损失信息和第二损失信息对预设内容推荐模型进行收敛处理;通过训练后内容推荐模型对查询文本进行内容推荐处理。以此,提升内容推荐准确性。
-
公开(公告)号:CN119339100A
公开(公告)日:2025-01-21
申请号:CN202411371157.5
申请日:2024-09-29
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06V10/44 , G06V10/764 , G06V10/80 , G06N3/045 , G06N3/0464 , G06N3/049
Abstract: 本发明涉及神经网络技术领域,公开了一种基于SNN信息补充的图像识别方法、装置、设备及介质,该方法包括:获取目标图像,并输入图像识别模型中的脉冲神经网络和卷积神经网络,进行特征提取并前向传播;在每个对应处理阶段,对脉冲神经网络和卷积神经网络中当前处理阶段各自对应的输入特征进行处理,得到第一特征和第二特征,将其合并为第三特征,将第三特征和第二特征分别输出至脉冲神经网络和卷积神经网络的下一处理阶段;当脉冲神经网络的最后的处理阶段得到目标特征后,通过其全连接层基于目标特征确定目标图像的分类结果,本发明通过卷积神经网络为脉冲神经网络每个阶段提取的特征提供补充特征,从而提高脉冲神经网络的图像处理性能。
-
公开(公告)号:CN118520153B
公开(公告)日:2024-12-06
申请号:CN202410972733.5
申请日:2024-07-19
Applicant: 中国科学院自动化研究所
IPC: G06F16/903 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种NFT跨模态检索方法、装置及存储介质,涉及电数字数据处理技术领域,所述方法包括:获取用于检索的语义信息;将所述语义信息输入至NFT跨模态检索模型中,基于置信累加两阶段搜索算法获取与语义信息最为匹配的NFT检索结果,所述NFT跨模态检索模型是基于动态组件差分训练得到的。本发明提供的NFT跨模态检索方法、装置及存储介质,可以根据动态组件差分训练得到NFT跨模态检索模型,然后根据NFT跨模态检索模型通过置信累加两阶段搜索算法,从而能够根据用户输入的语义信息输出与之最为匹配的检索结果,可以提高NFT图像的检索精度。
-
公开(公告)号:CN118410210A
公开(公告)日:2024-07-30
申请号:CN202410845065.X
申请日:2024-06-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06N20/00
Abstract: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。
-
公开(公告)号:CN116821417B
公开(公告)日:2023-12-12
申请号:CN202311082820.5
申请日:2023-08-28
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06F16/783 , G06N3/045 , G06V10/80 , G06V10/82 , G06V20/40
Abstract: 本发明实施例提供了一种视频标签序列生成方法和装置,其中,该方法包括:对样本视频内容和标题进行多模态特征提取得到多种特征编码;将多种特征编码输入到预训练的多模态混合编码器中进行特征融合,得到多模态混合特征;通过顺序提示模型为样本视频生成对应的顺序提示信息;将顺序提示信息与样本视频对应的标签进行对齐训练,得到每个顺序提示信息与标签的唯一对应关系;基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列,通过目标序列和多模态混合特征对顺序感知标签解码器进行训练,得到训练好的标签解码器。通
-
公开(公告)号:CN119537647A
公开(公告)日:2025-02-28
申请号:CN202510104911.7
申请日:2025-01-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06F16/78 , G06F16/75 , G06V10/82 , G06V10/44 , G06V10/80 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种基于顺序提示和检索增强生成的标签序列生成方法,属于数据处理技术领域,所述方法包括:将目标视频输入至标签序列生成模型中,标签序列生成模型在获取到目标视频的帧特征和文本特征之后,对帧特征和文本特征进行特征融合,得到多模态混合特征;基于多模态混合特征,生成目标视频的顺序提示,顺序提示用于按序提示目标视频的重点关注特征;从多个检索系统中检索到相关视频后,基于相关视频的标签,生成提示语句,相关视频是与目标视频相关的视频;基于多模态混合特征、顺序提示和提示语句,生成目标视频的标签序列并输出。本发明不依赖标签集合,可以有效缓解标签长尾问题,提高标签多样性和相关性。
-
公开(公告)号:CN118410210B
公开(公告)日:2024-11-19
申请号:CN202410845065.X
申请日:2024-06-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06N20/00
Abstract: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。
-
公开(公告)号:CN116821417A
公开(公告)日:2023-09-29
申请号:CN202311082820.5
申请日:2023-08-28
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06F16/783 , G06N3/045 , G06V10/80 , G06V10/82 , G06V20/40
Abstract: 本发明实施例提供了一种视频标签序列生成方法和装置,其中,该方法包括:对样本视频内容和标题进行多模态特征提取得到多种特征编码;将多种特征编码输入到预训练的多模态混合编码器中进行特征融合,得到多模态混合特征;通过顺序提示模型为样本视频生成对应的顺序提示信息;将顺序提示信息与样本视频对应的标签进行对齐训练,得到每个顺序提示信息与标签的唯一对应关系;基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列,通过目标序列和多模态混合特征对顺序感知标签解码器进行训练,得到训练好的标签解码器。通过本发明,解决了视频标签开集生成的问题,提高了模型预测未见标签的能力和拓展性。
-
公开(公告)号:CN118520153A
公开(公告)日:2024-08-20
申请号:CN202410972733.5
申请日:2024-07-19
Applicant: 中国科学院自动化研究所
IPC: G06F16/903 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种NFT跨模态检索方法、装置及存储介质,涉及电数字数据处理技术领域,所述方法包括:获取用于检索的语义信息;将所述语义信息输入至NFT跨模态检索模型中,基于置信累加两阶段搜索算法获取与语义信息最为匹配的NFT检索结果,所述NFT跨模态检索模型是基于动态组件差分训练得到的。本发明提供的NFT跨模态检索方法、装置及存储介质,可以根据动态组件差分训练得到NFT跨模态检索模型,然后根据NFT跨模态检索模型通过置信累加两阶段搜索算法,从而能够根据用户输入的语义信息输出与之最为匹配的检索结果,可以提高NFT图像的检索精度。
-
-
-
-
-
-
-
-
-