一种视觉问答的方法、装置及介质

    公开(公告)号:CN113780486B

    公开(公告)日:2022-02-11

    申请号:CN202111344175.0

    申请日:2021-11-15

    IPC分类号: G06K9/62 G06V10/80 G06V10/774

    摘要: 本发明公开了一种视觉问答方法、装置及介质,应用于深度学习领域,获取目标文字和目标图像,并将目标文字与目标图像分别转换为文字数据和图像数据;将文字数据以及图像数据分别输入至基于Transformer的模型中提取文字特征和图像特征,进而将文字特征和图像特征输入至Transformer的模型得到融合特征,最后将融合特征输入至分类器得到视觉问答任务的答案。在特征提取方面完全采用Transformer模型,加快提取速度,节省计算成本,减少运算参数量,将文字特征和图像特征进行聚合,使来自图像特征与文本特征的信息达到更好的交互,提高特征表征能力,提升特征提取运行速率,提高视觉问答的答案准确率。

    一种视觉问答的方法、装置及介质

    公开(公告)号:CN113780486A

    公开(公告)日:2021-12-10

    申请号:CN202111344175.0

    申请日:2021-11-15

    IPC分类号: G06K9/62

    摘要: 本发明公开了一种视觉问答方法、装置及介质,应用于深度学习领域,获取目标文字和目标图像,并将目标文字与目标图像分别转换为文字数据和图像数据;将文字数据以及图像数据分别输入至基于Transformer的模型中提取文字特征和图像特征,进而将文字特征和图像特征输入至Transformer的模型得到融合特征,最后将融合特征输入至分类器得到视觉问答任务的答案。在特征提取方面完全采用Transformer模型,加快提取速度,节省计算成本,减少运算参数量,将文字特征和图像特征进行聚合,使来自图像特征与文本特征的信息达到更好的交互,提高特征表征能力,提升特征提取运行速率,提高视觉问答的答案准确率。

    一种基于Transformer网络的行人重识别方法及装置

    公开(公告)号:CN115909408A

    公开(公告)日:2023-04-04

    申请号:CN202211535684.6

    申请日:2022-11-30

    摘要: 本发明提供了一种基于Transformer网络的行人重识别方法及装置,是通过将原始图像划分为两个分支;将两个分支分别进行线性映射,得到第一序列和第二序列;在第一序列和第二序列中加入新的参数,生成第三序列和第四序列;将第三序列和第四序列放入Transformer网络中对应的不同层级进行特征提取,从而获得第一全局特征和第一局部特征;将第一全局特征和第一局部特征进行特征融合,获得第二全局特征和第二局部特征;对第二局部特征处理,将处理后的第二局部特征和第二全局特征分别放入Transformer网络特定的层级进行特征提取,将提取后的特征分别根据对应的损失函数计算整体损失。该方法可以有效的提高行人重识别任务精确度和鲁棒性。该装置同样具有上述有益效果。