视频和文本的处理方法和装置、存储介质及电子设备

    公开(公告)号:CN117216580A

    公开(公告)日:2023-12-12

    申请号:CN202310550454.5

    申请日:2023-05-15

    Abstract: 本申请公开了一种视频和文本的处理方法和装置、存储介质及电子设备。其中,该方法包括:利用目标视频的原始视频特征对目标文本的原始文本特征进行重构,得到重构文本特征,其中,原始文本特征包括N1个词向量,原始视频特征包括N2个视频帧向量;利用原始文本特征对原始视频特征进行重构,得到重构视频特征,其中,重构视频特征包括N2个重构视频帧向量,N2个重构视频帧向量包括N2个视频帧的重构视频帧向量;根据N1个词向量、N1个重构词向量、N2个视频帧向量以及N2个重构视频帧向量,确定目标文本与目标视频之间的语义相似度。本申请解决了相关技术中在在视频和文本的处理过程中出现的准确性较低的技术问题。

    NFT跨模态检索方法、装置及存储介质

    公开(公告)号:CN118520153B

    公开(公告)日:2024-12-06

    申请号:CN202410972733.5

    申请日:2024-07-19

    Abstract: 本发明提供一种NFT跨模态检索方法、装置及存储介质,涉及电数字数据处理技术领域,所述方法包括:获取用于检索的语义信息;将所述语义信息输入至NFT跨模态检索模型中,基于置信累加两阶段搜索算法获取与语义信息最为匹配的NFT检索结果,所述NFT跨模态检索模型是基于动态组件差分训练得到的。本发明提供的NFT跨模态检索方法、装置及存储介质,可以根据动态组件差分训练得到NFT跨模态检索模型,然后根据NFT跨模态检索模型通过置信累加两阶段搜索算法,从而能够根据用户输入的语义信息输出与之最为匹配的检索结果,可以提高NFT图像的检索精度。

    基于事件感知的跨模态视频文本检索模型的训练方法

    公开(公告)号:CN118410210A

    公开(公告)日:2024-07-30

    申请号:CN202410845065.X

    申请日:2024-06-27

    Abstract: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。

    基于顺序提示和检索增强生成的标签序列生成方法

    公开(公告)号:CN119537647A

    公开(公告)日:2025-02-28

    申请号:CN202510104911.7

    申请日:2025-01-23

    Abstract: 本发明提供一种基于顺序提示和检索增强生成的标签序列生成方法,属于数据处理技术领域,所述方法包括:将目标视频输入至标签序列生成模型中,标签序列生成模型在获取到目标视频的帧特征和文本特征之后,对帧特征和文本特征进行特征融合,得到多模态混合特征;基于多模态混合特征,生成目标视频的顺序提示,顺序提示用于按序提示目标视频的重点关注特征;从多个检索系统中检索到相关视频后,基于相关视频的标签,生成提示语句,相关视频是与目标视频相关的视频;基于多模态混合特征、顺序提示和提示语句,生成目标视频的标签序列并输出。本发明不依赖标签集合,可以有效缓解标签长尾问题,提高标签多样性和相关性。

    基于事件感知的跨模态视频文本检索模型的训练方法

    公开(公告)号:CN118410210B

    公开(公告)日:2024-11-19

    申请号:CN202410845065.X

    申请日:2024-06-27

    Abstract: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。

    视频标签序列生成方法和装置

    公开(公告)号:CN116821417A

    公开(公告)日:2023-09-29

    申请号:CN202311082820.5

    申请日:2023-08-28

    Abstract: 本发明实施例提供了一种视频标签序列生成方法和装置,其中,该方法包括:对样本视频内容和标题进行多模态特征提取得到多种特征编码;将多种特征编码输入到预训练的多模态混合编码器中进行特征融合,得到多模态混合特征;通过顺序提示模型为样本视频生成对应的顺序提示信息;将顺序提示信息与样本视频对应的标签进行对齐训练,得到每个顺序提示信息与标签的唯一对应关系;基于顺序提示信息和唯一对应关系对样本视频进行标签排序得到目标序列,通过目标序列和多模态混合特征对顺序感知标签解码器进行训练,得到训练好的标签解码器。通过本发明,解决了视频标签开集生成的问题,提高了模型预测未见标签的能力和拓展性。

    NFT跨模态检索方法、装置及存储介质

    公开(公告)号:CN118520153A

    公开(公告)日:2024-08-20

    申请号:CN202410972733.5

    申请日:2024-07-19

    Abstract: 本发明提供一种NFT跨模态检索方法、装置及存储介质,涉及电数字数据处理技术领域,所述方法包括:获取用于检索的语义信息;将所述语义信息输入至NFT跨模态检索模型中,基于置信累加两阶段搜索算法获取与语义信息最为匹配的NFT检索结果,所述NFT跨模态检索模型是基于动态组件差分训练得到的。本发明提供的NFT跨模态检索方法、装置及存储介质,可以根据动态组件差分训练得到NFT跨模态检索模型,然后根据NFT跨模态检索模型通过置信累加两阶段搜索算法,从而能够根据用户输入的语义信息输出与之最为匹配的检索结果,可以提高NFT图像的检索精度。

Patent Agency Ranking