视觉问答系统中图像特征模块端到端训练方法及应用

    公开(公告)号:CN111814843A

    公开(公告)日:2020-10-23

    申请号:CN202010563278.5

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 龙宇

    Abstract: 本发明涉及一种视觉问答系统中图像特征模块端到端训练方法及应用,所述训练方法包括:获取视觉问答模型的初始模型参数;获取训练图像和对应的训练文本序列;对所述训练图像进行图像特征抽取,并对所述训练文本序列进行文本特征提取;对所述图像特征和文本特征进行特征融合,生成融合特征,基于所述融合特征生成输出答案;基于所述输出答案与所述训练图像的初始答案计算答案误差;在所述视觉问答模型的其他部分优化方法不变的前提下,基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。与现有技术相比,本发明具有效果显著、实现简单等优点。

    一种用于视觉问答模型训练的增量型数据增强方法及应用

    公开(公告)号:CN111967487B

    公开(公告)日:2022-09-20

    申请号:CN202010563289.3

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 龙宇

    Abstract: 本发明涉及一种用于视觉问答模型训练的增量型数据增强方法,该方法包括:获取原始训练数据集,该数据集中的训练样本的形式为 ,所述文本由自然语言序列形成;获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布,基于所述句长分布确定最小句子长度阈值和最大句子长度阈值;根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充,实现数据增强。与现有技术相比,本发明具有实现数据多样性、效率佳、简单等优点。

    一种用于视觉问答模型训练的增量型数据增强方法及应用

    公开(公告)号:CN111967487A

    公开(公告)日:2020-11-20

    申请号:CN202010563289.3

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 龙宇

    Abstract: 本发明涉及一种用于视觉问答模型训练的增量型数据增强方法,该方法包括:获取原始训练数据集,该数据集中的训练样本的形式为 ,所述文本由自然语言序列形成;获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布,基于所述句长分布确定最小句子长度阈值和最大句子长度阈值;根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充,实现数据增强。与现有技术相比,本发明具有实现数据多样性、效率佳、简单等优点。

    视觉问答系统中图像特征模块端到端训练方法及应用

    公开(公告)号:CN111814843B

    公开(公告)日:2024-02-27

    申请号:CN202010563278.5

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 龙宇

    Abstract: 本发明涉及一种视觉问答系统中图像特征模块端到端训练方法及应用,所述训练方法包括:获取视觉问答模型的初始模型参数;获取训练图像和对应的训练文本序列;对所述训练图像进行图像特征抽取,并对所述训练文本序列进行文本特征提取;对所述图像特征和文本特征进行特征融合,生成融合特征,基于所述融合特征生成输出答案;基于所述输出答案与所述训练图像的初始答案计算答案误差;在所述视觉问答模型的其他部分优化方法不变的前提下,基于所述答案误差以一阶优化方法对所述图像特征模块进行参数调整。与现有技术相比,本发明具有效果显著、实现简单等优点。

Patent Agency Ranking