-
公开(公告)号:CN112241468B
公开(公告)日:2024-11-19
申请号:CN202010718382.7
申请日:2020-07-23
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F16/732 , G06F16/783 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/0442
Abstract: 本发明提供了一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质,该跨模态视频检索方法包括视频编码步骤、文本编码步骤和联合嵌入步骤,本发明通过有监督训练的形式,充分利用训练多模态数据中的语义信息进行训练,同时引入多头目自注意力机制,捕捉视频和文本内部的细微交互,有选择性地关注多模态数据的关键信息来增强模型的表征能力,更好地挖掘数据语义,保证数据在原始空间和在共享子空间中距离的一致性。本发明的有益效果是:通过实验证明,本发明既可以有效保持数据在原始空间相似性,又能提高检索的准确率。
-
公开(公告)号:CN112241468A
公开(公告)日:2021-01-19
申请号:CN202010718382.7
申请日:2020-07-23
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F16/732 , G06F16/783 , G06K9/00 , G06N3/04
Abstract: 本发明提供了一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质,该跨模态视频检索方法包括视频编码步骤、文本编码步骤和联合嵌入步骤,本发明通过有监督训练的形式,充分利用训练多模态数据中的语义信息进行训练,同时引入多头目自注意力机制,捕捉视频和文本内部的细微交互,有选择性地关注多模态数据的关键信息来增强模型的表征能力,更好地挖掘数据语义,保证数据在原始空间和在共享子空间中距离的一致性。本发明的有益效果是:通过实验证明,本发明既可以有效保持数据在原始空间相似性,又能提高检索的准确率。
-