-
公开(公告)号:CN117972142A
公开(公告)日:2024-05-03
申请号:CN202410225442.X
申请日:2024-02-29
Applicant: 同济大学
IPC: G06F16/783 , G06F18/22 , G06V10/77 , G06V10/74 , G06V10/82 , G06V10/774
Abstract: 本发明涉及计算机技术领域,尤其是涉及一种基于跨模态分布消偏的视频文本检索方法、装置及存储介质。该方法获取待检索的文本查询和视频集后,利用训练好的视频文本检索模型获取各视频的相似度,将相似度最高的视频作为检索结果,其中,视频文本检索模型包括特征投影层和模态判别层,并利用枢纽正则损失函数进行训练。与现有技术相比,本发明具有有效弥合不同模态之间的鸿沟,提升利用大规模预训练模型进行检索的准确性,提升整个检索系统的性能等优点。
-
公开(公告)号:CN116737995A
公开(公告)日:2023-09-12
申请号:CN202310690827.9
申请日:2023-06-12
Applicant: 同济大学
IPC: G06F16/783 , G06F18/22 , G06V10/77 , G06V10/74
Abstract: 本发明涉及一种视频文本检索方法,将待检索的文本和视频集输入预先构建并训练后的视频文本检索模型中,获得文本与视频集中各视频的相似度,并以相似度最高的视频作为文本检索的结果;视频文本检索模型包括:初始特征提取模块:分别对输入文本和输入视频进行提取,生成初始文本特征和初始视频特征;事件特征提取模块:用以将初始文本特征和初始视频特征分别处理得到事件文本特征和事件视频特征;视频文本特征对齐模块:通过跨模态自注意力机制分别对事件文本特征和事件视频特征进行重建,以获得自适应语义对齐的重建视频特征和重建文本特征,输出各重建视频特征和重建文本特征的相似度。与现有技术相比,本发明具有检索性能高,运行开销小等优点。
-