一种基于稠密图的视频分类方法和系统

    公开(公告)号:CN109376683A

    公开(公告)日:2019-02-22

    申请号:CN201811329682.5

    申请日:2018-11-09

    Inventor: 高科 陈潇凯

    Abstract: 本发明涉及一种基于稠密图的视频分类方法和系统,包括:通过共享的二维卷积神经网络获取帧级特征,然后将其按照时间顺序堆起来组成稠密图,最后通过一层时序卷积网络并行地获取多尺度特征完成分类任务。由于本发明涉及的参数量相比现有技术更少,因此计算复杂度更低。本发明不需要光流图去建模时序信息,相对高效。发明中全部使用了二维卷积核,共享大量网络参数,充分发挥了显卡的并行计算能力,在不损失精度的情况下大大提升了速度,并且使得模型易训练。

    一种基于信息损失函数的视频描述方法和系统

    公开(公告)号:CN109684912A

    公开(公告)日:2019-04-26

    申请号:CN201811329684.4

    申请日:2018-11-09

    Abstract: 本发明涉及一种基于信息损失函数的视频描述方法和系统,包括:获取训练视频,得到集合训练视频每一帧的语义信息;将训练视频的语义信息输入结合LSTM的层次化注意力机制模型中,得到训练视频的文字描述;根据文字描述中每个单词对表达视频内容的重要性,对单词进行损失加权,得到信息损失函数,将信息损失函数作为目标函数反传梯度优化层次化注意力机制模型,得到视频描述模型;获取待描述视频,将待描述视频分别输入至目标检测网络,卷积神经网络和动作识别网络,以得到集合待描述视频每一帧的目标特征、总体特征、运动特征,作为待描述视频的语义信息,将其输入至视频描述模型,得到待描述视频的文字描述。

Patent Agency Ranking