-
公开(公告)号:CN117541894B
公开(公告)日:2024-04-16
申请号:CN202410017186.5
申请日:2024-01-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G06V10/82 , G06V20/70 , G06N3/0455 , G06N3/08 , G06F40/284 , G06F40/289 , G06F40/216 , G06N3/047 , G06F18/214
Abstract: 本说明书实施例提供一种多模态模型的训练方法及装置,多模态模型包括编码网络及可训练的包括路由层及若干并行设置的专家网络的任务网络,该方法包括:获取编码网络处理样本图像及文本形式的任务指令得到的、包括各图像词元及各文本词元各自对应的第一词元特征的第一词元特征序列;利用第一词元特征序列,通过路由层,确定各个词元对应的包括各个专家网络相对于该词元被激活的概率的概率集合;基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;基于各个词元的第二词元特征,预测针对样本图像执行任务指令的任务结果;基于任务结果及任务指令对应的标签结果,调整任务网络。
-
公开(公告)号:CN117541894A
公开(公告)日:2024-02-09
申请号:CN202410017186.5
申请日:2024-01-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G06V10/82 , G06V20/70 , G06N3/0455 , G06N3/08 , G06F40/284 , G06F40/289 , G06F40/216 , G06N3/047 , G06F18/214
Abstract: 本说明书实施例提供一种多模态模型的训练方法及装置,多模态模型包括编码网络及可训练的包括路由层及若干并行设置的专家网络的任务网络,该方法包括:获取编码网络处理样本图像及文本形式的任务指令得到的、包括各图像词元及各文本词元各自对应的第一词元特征的第一词元特征序列;利用第一词元特征序列,通过路由层,确定各个词元对应的包括各个专家网络相对于该词元被激活的概率的概率集合;基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;基于各个词元的第二词元特征,预测针对样本图像执行任务指令的任务结果;基于任务结果及任务指令对应的标签结果,调整任务网络。
-