-
公开(公告)号:CN118675092A
公开(公告)日:2024-09-20
申请号:CN202411147293.6
申请日:2024-08-21
申请人: 南方科技大学
IPC分类号: G06V20/40 , G06F40/30 , G06V10/764 , G06V10/82
摘要: 本申请涉及一种基于大语言模型的多模态视频理解方法。通过获取包含多模态数据的待理解视频;对待理解视频的多模态数据分别进行特征提取,得到待理解视频的视频帧的第一特征、待理解视频的文本的第二特征、待理解视频的音频的第三特征;第一特征、第二特征、第三特征具有对应的时间戳;对齐第一特征、第二特征、第三特征的时间戳,并将第一特征、第二特征、第三特征整合成预设格式数据;根据预设格式数据、预设用户提问以及预设提示词,生成待理解视频的理解结果并输出,能够融合视频多模态数据,更全面、准确理解视频内容,克服单一模态信息处理的局限性,基于时间戳对齐数据并整合数据确保多模态数据的时序一致性及理解结果的结构化输出。
-
公开(公告)号:CN118384503B
公开(公告)日:2024-10-29
申请号:CN202410844808.1
申请日:2024-06-27
申请人: 南方科技大学
摘要: 本发明提供一种基于大语言模型的NPC交互优化方法,包括:获取地图环境中的NPC的未来行动序列;基于未来行动序列,确定NPC当前的最小时间单位的行动指引;获取NPC在地图环境中的感知经历;基于大语言模型,根据行动指引、感知经历,确定行动指引是否执行;当为执行时,基于行动指引,在地图环境中对NPC进行相应的移动;当NPC之间发起远程/近程对话时,基于大语言模型,根据发起远程/近程对话的NPC的感知经历,生成对话语句;基于所述对话语句,控制发起远程/近程对话的NPC之间进行相应的对话。克服了现有技术中无法完全模拟出现实生活的最小时间单位导致的NPC路径瞬移问题,实现了多NPC给出自己观点的对话模拟,真正模拟出现实生活中多人群聊的场景。
-
公开(公告)号:CN118384503A
公开(公告)日:2024-07-26
申请号:CN202410844808.1
申请日:2024-06-27
申请人: 南方科技大学
摘要: 本发明提供一种基于大语言模型的NPC交互优化方法,包括:获取地图环境中的NPC的未来行动序列;基于未来行动序列,确定NPC当前的最小时间单位的行动指引;获取NPC在地图环境中的感知经历;基于大语言模型,根据行动指引、感知经历,确定行动指引是否执行;当为执行时,基于行动指引,在地图环境中对NPC进行相应的移动;当NPC之间发起远程/近程对话时,基于大语言模型,根据发起远程/近程对话的NPC的感知经历,生成对话语句;基于所述对话语句,控制发起远程/近程对话的NPC之间进行相应的对话。克服了现有技术中无法完全模拟出现实生活的最小时间单位导致的NPC路径瞬移问题,实现了多NPC给出自己观点的对话模拟,真正模拟出现实生活中多人群聊的场景。
-
-