-
公开(公告)号:CN117521671A
公开(公告)日:2024-02-06
申请号:CN202311540542.3
申请日:2023-11-17
Applicant: 南京工业大学
IPC: G06F40/30 , G06V20/40 , G06V10/42 , G06V10/44 , G06V10/80 , G06V10/762 , G06V10/82 , G06N3/0455 , G06N3/0442
Abstract: 视频描述是一项具有挑战性的任务,它需要将视觉信息准确地转化为自然语言描述。常见的方法是模拟视觉特征的全局表示或采用对象特征来模拟视觉的局部表示。我们从另一个角度来处理视频字幕任务,并提出了一种基于SGN的改进模型,SGN模型主要利用视频全局特征的细粒度表示,但忽略了视频中关键的局部对象特征。我们在SGN的模型基础上加入了局部对象的注意力机制模块,与SGN模型相比,本发明的工作有如下几个优势:1)为了防止视频帧的冗余和无关视频帧的噪音造成的视觉错误,我们将视频帧进行相似度预处理,帧之间的相似程度可以更好的提高语义分组能力;2)我们利用视觉对象的区域特征能够更好地使得视觉语义更好的适应和表达模型;把视觉的局部特征和全局特征融合在一起,同时也能更好的在时间和空间上建模,从而更好的引导视频字幕的生成。
-
公开(公告)号:CN117812438A
公开(公告)日:2024-04-02
申请号:CN202311459630.0
申请日:2023-11-03
Applicant: 南京工业大学
IPC: H04N21/84 , H04N21/488 , G06N3/0464 , G06N3/0442 , H04N21/44
Abstract: 本发明实例是涉及了机器学习领域,主要设计了一个视频生成标题的深度学习网络模型,该模型主要包含视觉编码器、字幕解码器和最后训练的评估方法,编码器采用了显著性对象提取特征和长短距离视频帧的特征融合的方法得到中间的主要视觉信息,解码器则采用了传统的双向LSTM进行句子当中下一个单词的预测,而训练采用两种方式,分别是播种阶段和增强阶段,本发明实例由于收集的是不同人工标注的句子,来自不同的人工标注标题可能存在偏差,在训练当中则采用了加权平均的方式求其损失函数,从而建立了该视频描述的模型框架得到最终的评估效果。
-