-
公开(公告)号:CN117036545A
公开(公告)日:2023-11-10
申请号:CN202310874063.9
申请日:2023-07-17
Applicant: 北京林业大学 , 广州翼渡科技有限公司
IPC: G06T11/60 , G06N3/0464 , G06N3/0442 , G06V10/80 , G06V10/764 , G06V10/774
Abstract: 本发明涉及一种基于图像场景特征的图像描述文本生成方法及系统,提取CNN获得图像的特征图,通过RPN提取特征图中的对象建议框;采用GRU二分结构的推理迭代预测和生成场景图;利用场景图中的对象即节点及其关系,通过CNN从图像中提取视觉特征和从场景图中提取以两个节点及其连接的边构成的三元组作为语义特征,得到视觉特征和语义特征;以Transformer为基础框架,引入片段级递归机制与相对位置编码,利用融合特征实现长依赖文本生成;对基于图像场景特征的图像描述文本生成网络进行训练,通过交叉熵函数计算输出长依赖描述文本与实际值之间的误差,得到图像描述文本生成网络;将待生成描述的图像输入图像描述文本生成网络生成多句连贯可读的故事性文字描述。