-
公开(公告)号:CN118520153B
公开(公告)日:2024-12-06
申请号:CN202410972733.5
申请日:2024-07-19
Applicant: 中国科学院自动化研究所
IPC: G06F16/903 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种NFT跨模态检索方法、装置及存储介质,涉及电数字数据处理技术领域,所述方法包括:获取用于检索的语义信息;将所述语义信息输入至NFT跨模态检索模型中,基于置信累加两阶段搜索算法获取与语义信息最为匹配的NFT检索结果,所述NFT跨模态检索模型是基于动态组件差分训练得到的。本发明提供的NFT跨模态检索方法、装置及存储介质,可以根据动态组件差分训练得到NFT跨模态检索模型,然后根据NFT跨模态检索模型通过置信累加两阶段搜索算法,从而能够根据用户输入的语义信息输出与之最为匹配的检索结果,可以提高NFT图像的检索精度。
-
公开(公告)号:CN118227831A
公开(公告)日:2024-06-21
申请号:CN202410644212.7
申请日:2024-05-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/78 , G06F16/783 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及视频检索技术领域,提供一种跨模态视频检索方法、装置及电子设备,方法包括:提取查询文本的隐式特征和词表特征;基于特征提取模型,得到各候选视频的隐式特征和各候选视频的词表特征;基于查询文本的隐式特征与各候选视频的隐式特征之间的相似度以及查询文本的词表特征与各候选视频的词表特征之间的相似度,确定查询文本对应的检索视频;特征提取模型的词表特征训练阶段以最小化样本视频的词表特征与样本描述文本的词表特征之间的差异为训练目标,联合训练阶段以样本视频的隐式特征与样本描述文本的隐式特征之间的相似度作为软标签,最小化学生预测结果与软标签之间的差异为训练目标。本发明能够提高跨模态视频检索能力。
-
公开(公告)号:CN118535765B
公开(公告)日:2024-12-06
申请号:CN202411003383.8
申请日:2024-07-25
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06N3/0455 , G06N3/0464 , G06V20/62 , G06N3/0895 , G06F18/22
Abstract: 本发明涉及跨模态技术领域,提供一种跨模态模型的训练方法、装置、设备和存储介质,包括视频编码器提取第一视频特征,文本编码器提取第一文本特征以及文本掩码特征、同一词汇空间下的第二视频特征与第二文本特征、同一词汇空间下的第三视频特征与第三文本特征;基于第二视频特征与第二文本特征获取第一全局损失函数,基于第二视频特征与文本掩码特征获取第二全局损失函数;基于第一视频特征、第一文本特征以及感知器获取第一局部损失函数;基于第一视频特征、文本掩码特征以及感知器获取第二局部损失函数;基于第一全局损失函数、第二全局损失函数、第一局部损失函数、第二局部损失函数、掩码损失函数进行训练。实现缓解模态鸿沟的问题。
-
公开(公告)号:CN118227831B
公开(公告)日:2024-11-05
申请号:CN202410644212.7
申请日:2024-05-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/78 , G06F16/783 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及视频检索技术领域,提供一种跨模态视频检索方法、装置及电子设备,方法包括:提取查询文本的隐式特征和词表特征;基于特征提取模型,得到各候选视频的隐式特征和各候选视频的词表特征;基于查询文本的隐式特征与各候选视频的隐式特征之间的相似度以及查询文本的词表特征与各候选视频的词表特征之间的相似度,确定查询文本对应的检索视频;特征提取模型的词表特征训练阶段以最小化样本视频的词表特征与样本描述文本的词表特征之间的差异为训练目标,联合训练阶段以样本视频的隐式特征与样本描述文本的隐式特征之间的相似度作为软标签,最小化学生预测结果与软标签之间的差异为训练目标。本发明能够提高跨模态视频检索能力。
-
公开(公告)号:CN118535765A
公开(公告)日:2024-08-23
申请号:CN202411003383.8
申请日:2024-07-25
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06N3/0455 , G06N3/0464 , G06V20/62 , G06N3/0895 , G06F18/22
Abstract: 本发明涉及跨模态技术领域,提供一种跨模态模型的训练方法、装置、设备和存储介质,包括视频编码器提取第一视频特征,文本编码器提取第一文本特征以及文本掩码特征、同一词汇空间下的第二视频特征与第二文本特征、同一词汇空间下的第三视频特征与第三文本特征;基于第二视频特征与第二文本特征获取第一全局损失函数,基于第二视频特征与文本掩码特征获取第二全局损失函数;基于第一视频特征、第一文本特征以及感知器获取第一局部损失函数;基于第一视频特征、文本掩码特征以及感知器获取第二局部损失函数;基于第一全局损失函数、第二全局损失函数、第一局部损失函数、第二局部损失函数、掩码损失函数进行训练。实现缓解模态鸿沟的问题。
-
公开(公告)号:CN118520153A
公开(公告)日:2024-08-20
申请号:CN202410972733.5
申请日:2024-07-19
Applicant: 中国科学院自动化研究所
IPC: G06F16/903 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种NFT跨模态检索方法、装置及存储介质,涉及电数字数据处理技术领域,所述方法包括:获取用于检索的语义信息;将所述语义信息输入至NFT跨模态检索模型中,基于置信累加两阶段搜索算法获取与语义信息最为匹配的NFT检索结果,所述NFT跨模态检索模型是基于动态组件差分训练得到的。本发明提供的NFT跨模态检索方法、装置及存储介质,可以根据动态组件差分训练得到NFT跨模态检索模型,然后根据NFT跨模态检索模型通过置信累加两阶段搜索算法,从而能够根据用户输入的语义信息输出与之最为匹配的检索结果,可以提高NFT图像的检索精度。
-
-
-
-
-