一种视频高亮片段预测方法和系统

    公开(公告)号:CN112287175A

    公开(公告)日:2021-01-29

    申请号:CN202011183864.3

    申请日:2020-10-29

    Abstract: 本发明公开了一种视频高亮片段预测方法和系统,方法包括:获取视频数据,将视频数据划分为固定长度的视频片段,并在训练数据上标记出高亮片段;使用神经网络从每个视频片段中分别提取出视觉特征和听觉情感特征;对视觉特征和听觉情感特征进行模态内与跨模态的融合,得到融合特征;基于融合特征对视频片段进行评分;使用成对的高亮‑非高亮片段组合,以及相应的损失函数训练模型;基于模型的训练结果选择合适的参数,对长视频中的所有片段进行评分,根据评分结果预测出视频高亮片段。本发明通过使用声音中蕴含的情感信息来强化视觉和听觉的联合建模过程,可以从难以进行人工标注的、缺少语义信息和细粒度标签的长视频数据中预测高亮片段。

    一种视频高亮片段预测方法和系统

    公开(公告)号:CN112287175B

    公开(公告)日:2024-02-13

    申请号:CN202011183864.3

    申请日:2020-10-29

    Abstract: 本发明公开了一种视频高亮片段预测方法和系统,方法包括:获取视频数据,将视频数据划分为固定长度的视频片段,并在训练数据上标记出高亮片段;使用神经网络从每个视频片段中分别提取出视觉特征和听觉情感特征;对视觉特征和听觉情感特征进行模态内与跨模态的融合,得到融合特征;基于融合特征对视频片段进行评分;使用成对的高亮‑非高亮片段组合,以及相应的损失函数训练模型;基于模型的训练结果选择合适的参数,对长视频中的所有片段进行评分,根据评分结果预测出视频高亮片段。本发明通过使用声音中蕴含的情感信息来强化视觉和听觉的联合建模过程,可以从难以进行人工标注的、缺少语义信息和细粒度标签的长视频数据中预测高亮片段。

Patent Agency Ranking