-
公开(公告)号:CN117115706A
公开(公告)日:2023-11-24
申请号:CN202311048203.3
申请日:2023-08-21
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06V10/774 , G06V10/25 , G06V10/764 , G06V20/70 , G06V10/52 , G06V10/62 , G06V10/82 , G06N3/084 , G06N3/0455
Abstract: 本发明公开了一种基于多尺度时空注意力网络的视频动态场景图生成方法。本发明步骤如下:1、数据集的划分,2、使用预训练好的目标检测网络对视频帧提取特征,并进行目标分类,3、构建目标的语言特征,4、构建人物关系对的综合特征,并存储为稀疏矩阵,5、构建多尺度时空注意力网络,6、构建预训练模型增强的分类网络,7、损失函数,8、训练模型、9、网络预测值计算。本发明提出了一种多尺度时空注意力网络,创新性地在经典的Transformer架构基础上引入了“多尺度”建模思想,以实现对视频动态细粒度语义的精确建模。