一种基于层次注意力机制的双向重构网络视频描述方法

    公开(公告)号:CN110929587A

    公开(公告)日:2020-03-27

    申请号:CN201911045154.1

    申请日:2019-10-30

    Abstract: 本发明公开了一种基于层次注意力机制的双向重构网络视频描述方法。本发明方法首先利用卷积神经网络作为编码器提取视频帧的多尺度区域特征,并利用层次注意力机制处理视频特征得到视频特征动态表示;其次,利用长短时记忆神经网络作为解码器,以视频特征动态表示及其文本描述为输入,通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句;再次,通过构建以解码器的隐藏向量为输入的双向重构网络,最小化重构损失,可输出重构的视频特征,使得生成的文本描述和视频内容具有很高的语义相似性。本发明能有效提取多尺度视频特征反映视频时空结构,减少无关信息干扰,挖掘潜在视频语义信息,生成更准确更自然流畅的视频内容描述。

    基于时序高斯混合空洞卷积的语义重构视频描述方法

    公开(公告)号:CN113420179A

    公开(公告)日:2021-09-21

    申请号:CN202110704646.8

    申请日:2021-06-24

    Abstract: 本发明公开了基于时序高斯混合空洞卷积的语义重构视频描述方法。本发明方法首先对含文本描述的采样视频帧提取外观特征和动作特征,将其拼接后输入到时序高斯混合空洞卷积编码器获得时序高斯特征;然后利用两层长短时记忆神经网络构建解码器,得到生成语句概率分布和隐藏向量;再建立语义重构网络并计算语义重构损失;利用随机梯度下降算法优化模型,对新视频依次通过上述步骤获得生成语句概率分布,用贪心搜索算法获得视频描述语句。本发明方法利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并通过语义重构网络获得语句级的概率分布差异,能够缩小生成语句和视频内容的语义鸿沟,从而生成更准确描述视频内容的自然语句。

    一种基于层次注意力机制的双向重构网络视频描述方法

    公开(公告)号:CN110929587B

    公开(公告)日:2021-04-20

    申请号:CN201911045154.1

    申请日:2019-10-30

    Abstract: 本发明公开了一种基于层次注意力机制的双向重构网络视频描述方法。本发明方法首先利用卷积神经网络作为编码器提取视频帧的多尺度区域特征,并利用层次注意力机制处理视频特征得到视频特征动态表示;其次,利用长短时记忆神经网络作为解码器,以视频特征动态表示及其文本描述为输入,通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句;再次,通过构建以解码器的隐藏向量为输入的双向重构网络,最小化重构损失,可输出重构的视频特征,使得生成的文本描述和视频内容具有很高的语义相似性。本发明能有效提取多尺度视频特征反映视频时空结构,减少无关信息干扰,挖掘潜在视频语义信息,生成更准确更自然流畅的视频内容描述。

    基于时序高斯混合空洞卷积的语义重构视频描述方法

    公开(公告)号:CN113420179B

    公开(公告)日:2022-03-22

    申请号:CN202110704646.8

    申请日:2021-06-24

    Abstract: 本发明公开了基于时序高斯混合空洞卷积的语义重构视频描述方法。本发明方法首先对含文本描述的采样视频帧提取外观特征和动作特征,将其拼接后输入到时序高斯混合空洞卷积编码器获得时序高斯特征;然后利用两层长短时记忆神经网络构建解码器,得到生成语句概率分布和隐藏向量;再建立语义重构网络并计算语义重构损失;利用随机梯度下降算法优化模型,对新视频依次通过上述步骤获得生成语句概率分布,用贪心搜索算法获得视频描述语句。本发明方法利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并通过语义重构网络获得语句级的概率分布差异,能够缩小生成语句和视频内容的语义鸿沟,从而生成更准确描述视频内容的自然语句。

Patent Agency Ranking