Patent search ap:("杭州电子科技大学") AND inv:"徐呈禾" Page 1

1.

发明授权
基于大模型融合精细化场景图思维链的图像详细描述方法有权

公开(公告)号：CN118865388B

公开(公告)日：2025-05-09

申请号：CN202410915466.8

申请日：2024-07-09

Applicant: 杭州电子科技大学

Inventor： 张旻 , 徐呈禾 , 汤景凡 , 姜明

IPC: G06V20/70

Abstract: 本发明涉及基于大模型融合精细化场景图思维链的图像详细描述方法，针对待描述复杂图像，先获得图像的标题，其次通过主体提取模块识别图像中的主体对象，根据其基本信息构造初步的简单场景图，获得主体对象的详细描述内容，分析其属性并加入场景图中，获得完备的主体场景图，并向其中添加背景信息。再通过对象富化模块获得与主体对象强关联的非主体对象的基本信息，以此获得最终的精细化场景图。将图像、图像标题、精细化场景图和提示词模板结合，通过多模态大语言模型获得最终的详细图像描述。本发明实现了对复杂图像的详细描述，有效地减少了在图像描述任务中详细描述图像内容时常见的幻觉现象的发生，提高了描述的丰富性和可靠性。

2.

发明公开
基于大模型融合精细化场景图思维链的图像详细描述方法有权

公开(公告)号：CN118865388A

公开(公告)日：2024-10-29

申请号：CN202410915466.8

申请日：2024-07-09

Applicant: 杭州电子科技大学

Inventor： 张旻 , 徐呈禾 , 汤景凡 , 姜明

IPC: G06V20/70

Abstract: 本发明涉及基于大模型融合精细化场景图思维链的图像详细描述方法，针对待描述复杂图像，先获得图像的标题，其次通过主体提取模块识别图像中的主体对象，根据其基本信息构造初步的简单场景图，获得主体对象的详细描述内容，分析其属性并加入场景图中，获得完备的主体场景图，并向其中添加背景信息。再通过对象富化模块获得与主体对象强关联的非主体对象的基本信息，以此获得最终的精细化场景图。将图像、图像标题、精细化场景图和提示词模板结合，通过多模态大语言模型获得最终的详细图像描述。本发明实现了对复杂图像的详细描述，有效地减少了在图像描述任务中详细描述图像内容时常见的幻觉现象的发生，提高了描述的丰富性和可靠性。

Patent Agency Ranking