一种基于大语言模型的多模态视频理解方法

    公开(公告)号:CN118675092A

    公开(公告)日:2024-09-20

    申请号:CN202411147293.6

    申请日:2024-08-21

    摘要: 本申请涉及一种基于大语言模型的多模态视频理解方法。通过获取包含多模态数据的待理解视频;对待理解视频的多模态数据分别进行特征提取,得到待理解视频的视频帧的第一特征、待理解视频的文本的第二特征、待理解视频的音频的第三特征;第一特征、第二特征、第三特征具有对应的时间戳;对齐第一特征、第二特征、第三特征的时间戳,并将第一特征、第二特征、第三特征整合成预设格式数据;根据预设格式数据、预设用户提问以及预设提示词,生成待理解视频的理解结果并输出,能够融合视频多模态数据,更全面、准确理解视频内容,克服单一模态信息处理的局限性,基于时间戳对齐数据并整合数据确保多模态数据的时序一致性及理解结果的结构化输出。