基于共识图表征推理的定位自然图像字幕生成方法和装置

    公开(公告)号:CN111741236A

    公开(公告)日:2020-10-02

    申请号:CN202010857184.9

    申请日:2020-08-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤:S1:以预先提取的视觉场景图及文本场景图作为先验知识,通过结构对抗学习方法从图先验中进行演绎与推理,生成作为共识知识的共识图表征;S2:基于视觉空间图与共识图表征,结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述;S3:在S2中生成文本描述的同时,根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性,从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题,并获取更优的字幕生成与对象定位性能。

    一种基于主题适应与原型编码的少样本视觉故事叙述方法

    公开(公告)号:CN111708904A

    公开(公告)日:2020-09-25

    申请号:CN202010857191.9

    申请日:2020-08-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于主题适应与原型编码的少样本视觉故事叙述方法。该方法首先将据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;对查询集中的样本提取时序视觉语义特征和图像序列特征,结合在支持集中预先提取好的的故事特征和图像序列特征计算原型向量;再将原型向量与图像序列特征结合,进一步解码获得故事性描述文本。整体视觉故事模型进一步通过元学习方法,根据在查询集上计算得到的综合损失来优化模型的初始参数。在推测阶段,模型通过少数样本调整参数,根据新图像序列生成故事文本。本发明结合原型编码及元学习方法,所构建的模型具有快速适应主题的能力,能更好地生成符合图像序列主题的故事性文本描述。

Patent Agency Ranking