发明公开
- 专利标题: 一种基于注意力机制的多频分析视频生成方法
-
申请号: CN202311659013.5申请日: 2023-12-05
-
公开(公告)号: CN117611468A公开(公告)日: 2024-02-27
- 发明人: 金贝贝 , 宋晓辉 , 李金东 , 张鹏飞
- 申请人: 河南省科学院物理研究所 , 河南省科学院
- 申请人地址: 河南省郑州市金水区明理路266-38号
- 专利权人: 河南省科学院物理研究所,河南省科学院
- 当前专利权人: 河南省科学院物理研究所,河南省科学院
- 当前专利权人地址: 河南省郑州市金水区明理路266-38号
- 代理机构: 深圳市众元信科专利代理有限公司
- 代理商 徐佳辰
- 主分类号: G06T5/50
- IPC分类号: G06T5/50 ; G06V10/44 ; G06V10/80 ; G06V10/82 ; G06V10/52 ; G06V10/771 ; G06N3/0442 ; G06N3/0455 ; G06N3/0475 ; G06N3/084 ; G06N3/0464
摘要:
本发明公开了一种基于注意力机制的多频分析视频生成方法。本方法使用“编码器‑LSTM‑解码器”的网络结构根据历史视频序列的信息预测未来的视频序列:通过空间多频小波分解,解决预测模糊细节缺失的问题。利用时序多频小波分解得到沿时间轴不同频率下的特征图组合,让模型更好地感知视频中的过程性运动。运用注意力机制,将相邻帧之间的帧差图利用神经网络编码为注意力向量,让模型更好地感知瞬时运动特征。该方法提高了模型对视频序列中时空特征的提取能力,增强了预测精度和效率,并具备较强的泛化能力,具有一定社会价值和现实意义。