一种基于大模型智能体多轮推理的长视频问答方法

    公开(公告)号:CN119202149A

    公开(公告)日:2024-12-27

    申请号:CN202410943597.7

    申请日:2024-07-15

    Abstract: 本发明涉及一种基于大模型智能体多轮推理的长视频问答方法,根据问题和选项确定初始的关键帧序列,并生成选项的置信度分数,置信度分数用于提示大语言模型在输入信息不充分情况下依然能得到相对可靠的答案。定位的关键帧以网格化拼接的形式,和文本上下文一起输入大模型智能体推理预测答案。大模型智能体基于当前提供的信息和答案预测过程进行评估,决定是否需要进行下一轮次的迭代来补充缺失的视觉信息。自适应的多轮推理问答考虑到了不同类别的问题所需的视频帧数量的不同,有效提高了视频问答的准确率和质量。

Patent Agency Ranking