一种面向视频的可控文本摘要生成方法

    公开(公告)号:CN118570689A

    公开(公告)日:2024-08-30

    申请号:CN202310174847.0

    申请日:2023-02-28

    Applicant: 兰州大学

    Abstract: 本发明公开了一种面向视频的可控文本摘要生成方法,包括步骤:(1)收集并构建场景视频数据集,针对数据集进行文本摘要数据标定;(2)将视频以秒为单位切割为多帧并标定文本构建控制信号;(3)基于CLIP网络和I3D网络提取视频的静态和动态特征并统一不同的视频特征维度;(4)利用Vision Transformer Encoder对融合特征进行编码;(5)利用多层LSTM网络对编码后的特征进行解码,生成可控的视频文本摘要;(6)利用强化学习优化模型参数。与现有技术相比,本发明构建控制信号,利用控制信号指导模型生成可控的视频摘要,同时解决了特征编码阶段隐藏状态的丢失问题,提高了视频摘要内容的准确性以及内容可控性。

    一种基于大模型微调的视频摘要生成方法

    公开(公告)号:CN117412147A

    公开(公告)日:2024-01-16

    申请号:CN202311033974.5

    申请日:2023-08-17

    Applicant: 兰州大学

    Abstract: 本发明公开一种基于大模型微调的视频摘要生成方法。视频摘要生成是使用文字对原有视频内容进行总结与概括,在多模态领域应用广泛。本发明提出的基于大模型微调技术的视频摘要生成方法包括以下步骤:(1)利用MACAW‑LLM大模型多模态融合的特点,将视频特征与文本特征进行跨模态交互;(2)采用CLIP、WHISPER完成对视频和音频特征提取;(3)使用GPT‑3.5Turbo生成指令辅助摘要生成算法;(4)使用注意力机制算法完成模态对齐,并与指令进行融合;(5)采用LoRA微调技术进行模型训练,最小化负对数似然函数对大模型参数进行迭代更新并生成视频摘要。本发明使用少量训练数据就可完成零样本迁移学习,最终生成的视频摘要答案准确、条理清晰、内容丰富。

Patent Agency Ranking