-
公开(公告)号:CN118629026A
公开(公告)日:2024-09-10
申请号:CN202410780281.0
申请日:2024-06-17
Applicant: 南京工业大学
IPC: G06V20/62 , G06V20/40 , G06V10/42 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/0455
Abstract: 本发明提供一种基于全局感知特征融合与样本关系学习的视频描述方法,属于视频描述领域。所述视频描述方法包括利用Inception‑ResNet‑V2模型提取视频静态特征;利用C3D模型提取视频动态特征;利用Faster‑RCNN模型提取视频对象特征;利用SBERT模型提取中视频对应字幕的语义标签;使用提出的样本关系学习模块学习样本之间的关系特征,利用全局感知特征融合模块控制特征融合权重,缓解累积的权重分配偏差问题,提高生成字幕的确性。