-
公开(公告)号:CN119653201A
公开(公告)日:2025-03-18
申请号:CN202411702267.5
申请日:2024-11-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/854 , H04N21/44 , H04N21/234 , H04N21/235 , H04N21/84 , G06F18/213 , G06F40/30
Abstract: 本说明书提供一种视频生成、模型的训练方法及系统。其在获得视频描述信息和N个语义扩展指令之后,基于预先训练好的视频生成模型中的语义特征生成网络对视频描述信息和N个语义扩展指令进行语义提取得到目标语义特征,并通过视频生成模型中的视频生成网络基于目标语义特征进行视频生成,得到并输出与视频描述信息的语义相符的目标视频。在该方法中,由于语义特征生成网络和视频生成网络在视频生成模型的训练过程中被联合训练过,因此语义特征生成网络可以生成更贴合视频生成网络需求的目标语义特征,视频生成网络可以更加准确地依据目标语义特征来生成高质量的目标视频,从而提高了视频生成模型的整体性能和目标视频的生成效果。
-
公开(公告)号:CN117541894A
公开(公告)日:2024-02-09
申请号:CN202410017186.5
申请日:2024-01-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G06V10/82 , G06V20/70 , G06N3/0455 , G06N3/08 , G06F40/284 , G06F40/289 , G06F40/216 , G06N3/047 , G06F18/214
Abstract: 本说明书实施例提供一种多模态模型的训练方法及装置,多模态模型包括编码网络及可训练的包括路由层及若干并行设置的专家网络的任务网络,该方法包括:获取编码网络处理样本图像及文本形式的任务指令得到的、包括各图像词元及各文本词元各自对应的第一词元特征的第一词元特征序列;利用第一词元特征序列,通过路由层,确定各个词元对应的包括各个专家网络相对于该词元被激活的概率的概率集合;基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;基于各个词元的第二词元特征,预测针对样本图像执行任务指令的任务结果;基于任务结果及任务指令对应的标签结果,调整任务网络。
-
公开(公告)号:CN117541459A
公开(公告)日:2024-02-09
申请号:CN202311542623.7
申请日:2023-11-17
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T3/04 , G06T5/70 , G06T5/50 , G06V40/16 , G06V10/774 , G06V10/74 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本说明书实施例涉及一种图像生成模型的训练方法及装置,图像生成模型包含人脸一致性模块和训练好的扩散模型,扩散模型包括加噪模块和第一去噪网络,所述方法包括:将原始人脸图像输入加噪模块,得到第一噪声图像,然后将第一噪声图像输入第一去噪网络,得到具有第一风格的第一人脸图像,接着将第一噪声图像输入由第一去噪网络和人脸一致性模块融合形成的第一融合模块中进行融合处理,得到第二人脸图像,接下来根据原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失,根据第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失,最后基于第一损失与第二损失的总损失,调整人脸一致性模块的参数。
-
公开(公告)号:CN119450026A
公开(公告)日:2025-02-14
申请号:CN202411535402.1
申请日:2024-10-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N13/275 , G06T15/50 , G06N3/0455 , G06N3/08
Abstract: 本说明书一个或多个实施例提供了一种视频数据集构建方法、模型训练方法、视频生成方法及装置。其中,视频数据集构建方法中,在3D照明网络中构建了大量的照明轨迹,然后生成了每条照明轨迹对应的表征光照信息的白板图像的视频和表征3D模型的模型视频。之后,基于表征光照信息的视频和表征模型信息的视频生成了用于训练文本视频生成模型的视频数据集。
-
公开(公告)号:CN119273947A
公开(公告)日:2025-01-07
申请号:CN202411430010.9
申请日:2024-10-14
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种匹配点对生成方法及装置,该方法包括:获得针对同一场景的不同角度的第一图像和第二图像各自的、第一尺寸的第一特征图和第二特征图及第二尺寸的第三特征图和第四特征图之后;利用小尺寸的第一特征图和第二特征图对应的匹配特征点对,从大尺寸的第三特征图和第四特征图中,确定出匹配特征点对对应的特征块对;基于特征块对中的第一特征块中至少部分特征点和第二特征块中至少部分特征点之间的相似性,更新特征块对对应的当前的单应矩阵,得到特征块对对应的目标单应矩阵;基于目标单应矩阵,确定第一图像和第二图像之间的匹配点对,实现对图像间匹配点对的确定。
-
公开(公告)号:CN119007861A
公开(公告)日:2024-11-22
申请号:CN202410918028.7
申请日:2024-07-09
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种气体浓度预测模型训练方法及装置。其中,该方法包括:获取携带有目标气体的浓度标签的样本集;所述样本集包含多条样本数据,每条样本数据用于记录至少一种与目标气体的浓度存在关联关系的协变量;将所述样本集包含的样本数据输入待训练的气体浓度预测模型;其中,所述气体浓度预测模型包括注意力模块和预测模块,所述注意力模块用于从输入的样本数据中提取注意力信息,该注意力信息被用于与所述样本集包含的样本数据进行拼接,且得到的拼接数据进一步被输入所述预测模块,以由所述预测模块输出所述目标气体的预测浓度;根据所述预测浓度与所述浓度标签的差异,对所述气体浓度预测模型进行迭代训练。
-
公开(公告)号:CN118917416A
公开(公告)日:2024-11-08
申请号:CN202410922451.4
申请日:2024-07-09
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种视频问答方法、系统及任务解析方法、模型训练方法,该视频问答方法包括:向目标视频问答模型输入待解析视频、待解答问题和候选原子视频问答任务集合,并引导目标视频问答模型基于待解析视频将待解答问题分解为待解答原子视频问答任务集合;针对待解析视频,分别确定出待解答原子视频问答任务集合中的各候选原子视频问答任务对应的原子视频解析答案;向目标视频问答模型输入确定出的原子视频解析答案,以由目标视频问答模型根据获得的原子视频解析答案输出对应于待解答问题的最终视频解析答案。
-
公开(公告)号:CN118154891A
公开(公告)日:2024-06-07
申请号:CN202410419779.4
申请日:2024-04-08
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/40 , G06T11/60 , G06N3/08 , G06N3/0475 , G06N5/04
Abstract: 本申请一个或多个实施例提供一种多模态模型的预训练方法、装置、设备和存储介质,该方法包括:获取用于对多模态模型进行预训练的包括图像样本以及与图像样本对应的描述文本样本的多模态数据样本;将多模态数据样本输入多模态模型,以对图像样本进行特征提取,得到与图像样本对应的图像特征向量,并对描述文本样本进行特征提取,得到与描述文本样本对应的文本特征向量,以及,基于文本特征向量,生成与描述文本样本对应的图像,并基于图像特征向量,生成与图像样本对应的描述文本;基于生成的图像和图像样本确定第一损失,并基于生成的描述文本和描述文本样本确定第二损失,以及,基于第一损失和第二损失对多模态模型的模型参数进行调整。
-
公开(公告)号:CN117541894B
公开(公告)日:2024-04-16
申请号:CN202410017186.5
申请日:2024-01-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G06V10/82 , G06V20/70 , G06N3/0455 , G06N3/08 , G06F40/284 , G06F40/289 , G06F40/216 , G06N3/047 , G06F18/214
Abstract: 本说明书实施例提供一种多模态模型的训练方法及装置,多模态模型包括编码网络及可训练的包括路由层及若干并行设置的专家网络的任务网络,该方法包括:获取编码网络处理样本图像及文本形式的任务指令得到的、包括各图像词元及各文本词元各自对应的第一词元特征的第一词元特征序列;利用第一词元特征序列,通过路由层,确定各个词元对应的包括各个专家网络相对于该词元被激活的概率的概率集合;基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;基于各个词元的第二词元特征,预测针对样本图像执行任务指令的任务结果;基于任务结果及任务指令对应的标签结果,调整任务网络。
-
公开(公告)号:CN117521759B
公开(公告)日:2024-04-05
申请号:CN202410010377.9
申请日:2024-01-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/08 , G06N3/045 , G06N3/0499 , G06F40/289
Abstract: 本说明书实施例提供一种大模型的训练方法和装置,所述大模型包括具有相同第一结构的第一数目个第一网络层;方法包括:在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;在取消所述第一约束条件限制的情况下,对初步训练后的所述大模型进行继续训练。能够保证模型快速收敛。
-
-
-
-
-
-
-
-
-