-
公开(公告)号:CN115190332B
公开(公告)日:2025-01-07
申请号:CN202210801636.0
申请日:2022-07-08
Applicant: 西安交通大学医学院第二附属医院
IPC: H04N21/234 , H04N21/44 , H04N21/488 , H04N5/278 , G06V10/762 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种基于全局视频特征的密集视频字幕生成方法,本发明通过自适应聚类的方法在只输入整段视频的情况下编码其全局特征,进而以端到端的方式指导事件定位和字幕生成,略去了先前模型利用先验阈值进行事件提案划分的步骤,从而在保证字幕生成准确性的条件下大大降低了计算复杂度。本发明在处理长序列特征时能够自适应地将相近的特征查询聚类进而降低冗余,节省内存。同时,作为传统Transformer中完整自注意力机制的快速近似,该方法在编码准确性方面也表现优异。
-
公开(公告)号:CN115190332A
公开(公告)日:2022-10-14
申请号:CN202210801636.0
申请日:2022-07-08
Applicant: 西安交通大学医学院第二附属医院
IPC: H04N21/234 , H04N21/44 , H04N21/488 , H04N5/278 , G06V10/762 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种基于全局视频特征的密集视频字幕生成方法,本发明通过自适应聚类的方法在只输入整段视频的情况下编码其全局特征,进而以端到端的方式指导事件定位和字幕生成,略去了先前模型利用先验阈值进行事件提案划分的步骤,从而在保证字幕生成准确性的条件下大大降低了计算复杂度。本发明在处理长序列特征时能够自适应地将相近的特征查询聚类进而降低冗余,节省内存。同时,作为传统Transformer中完整自注意力机制的快速近似,该方法在编码准确性方面也表现优异。
-