-
公开(公告)号:CN117523297A
公开(公告)日:2024-02-06
申请号:CN202311546380.4
申请日:2023-11-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/09
Abstract: 本说明书的实施例提供了一种图像生成模型的训练方法、模型联合训练的方法和装置。在该图像生成模型的训练方法中,利用原始图像数据集循环执行下述模型训练过程:将当前原始图像数据提供给当前图像生成模型,得到修改后图像数据以及对应的用于指示修改信息的标签数据;进而将修改后图像数据提供给基于初始训练样本集进行初始化的当前图像篡改检测模型,得到对应的篡改检测结果;基于所得到的篡改检测结果,确定图像生成模型在当前模型训练过程的奖励值;基于强化学习算法根据所确定的奖励值调整当前图像生成模型的参数,直至满足第一训练结束条件,其中,经过模型参数调整后的图像生成模型充当下一模型训练过程的当前图像生成模型。
-
公开(公告)号:CN119629426A
公开(公告)日:2025-03-14
申请号:CN202411746608.9
申请日:2024-11-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/472 , G06T7/20 , G06N20/00 , H04N21/44
Abstract: 本申请一个或多个实施例提供一种图生视频模型的训练方法、装置、设备和存储介质,所述方法包括:获取第一样本视频,并从所述第一样本视频中提取图像帧;获取由训练完成的运动估计模型针对所述第一样本视频进行运动强度评估,得到的所述第一样本视频的多种类型的运动强度数据;将所述图像帧和所述多种类型的运动强度数据输入预设的图生视频模型,由所述图生视频模型基于所述图像帧和所述多种类型的运动强度数据进行计算,生成对应的视频;基于生成的视频确定训练损失,并在根据所述损失完成针对所述图生视频模型的模型参数的调整后,确定完成针对所述图生视频模型的训练。
-
公开(公告)号:CN119545042A
公开(公告)日:2025-02-28
申请号:CN202411702256.7
申请日:2024-11-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/234 , H04N21/44 , H04N21/81 , H04N21/854 , G06T5/50 , G06T3/4038 , G06V10/764 , G06V10/774 , G06V10/77 , G06N5/04 , G06N3/0455 , G06N3/08
Abstract: 本说明书实施例提供一种视频生成方法、视频生成模型的训练方法以及系统。该视频生成方法被配置为通过训练好的包括显式特征提取网络和扩散网络的视频生成模型进行视频生成,包括:获得展示第一对象的运动过程的参考视频和展示第二对象的形象的参考图像,对参考视频中的第一对象的骨架进行提取得到骨架视频,对参考图像进行特征提取得到图像特征,将该图像特征和该骨架视频输入显式特征提取网络得到显式运动特征,并将该显式运动特征和该参考图像输入扩散网络得到展示第二对象的运动过程的目标视频;其中,在视频生成模型的训练过程中,输入至显式特征提取网络的骨架视频为对样本视频中的样本对象的至少部分骨架进行变化后的骨架视频。
-
公开(公告)号:CN119026637A
公开(公告)日:2024-11-26
申请号:CN202411034590.X
申请日:2024-07-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/045 , G06N3/0985 , G06V10/764 , G06V10/82 , G06V20/10
Abstract: 本说明书提供一种网络模型的预训练方法、图像处理方法及系统。其中,预训练方法应用于预设网络,预设网络包括教师模型、完整学生模型、弹性学生模型。在不同次迭代训练中,弹性学生模型基于不同的超参数使之成为完整学生模型的子网络。在第n次迭代训练中:将第一视角图像输入至教师模型,获得第一预测结果,将第二视角图像输入至完整学生模型和弹性学生模型,获得完整学生模型输出的第二预测结果和弹性学生模型输出的第三预测结果,以最小化第一预测结果和第二预测结果的差异、第一预测结果和第三预测结果的差异、第二预测结果和第三预测结果的差异为训练目标更新预设网络参数。经本方法得到的教师模型用于提供与不同的超参数各自对应的模型。
-
公开(公告)号:CN118229835A
公开(公告)日:2024-06-21
申请号:CN202410263259.9
申请日:2024-03-07
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例披露一种视觉提示的生成方法及装置。该方法包括:首先,利用不同尺度的m个第一窗口分别对第一全局特征图进行分割处理,得到m个第一分区图集;所述第一全局特征图是利用视觉编码器处理目标图像而得到。接着,将任意第i个第一分区图集中各个第一分区图分别作为目标特征图输入感知重采样器,得到对应的第一视觉提示。然后,基于各个第一分区图对应的目标视觉提示,确定所述目标图像对应的多尺度视觉提示;任意第一分区图对应的目标视觉提示根据其对应的第一视觉提示确定;所述多尺度视觉提示用于作为大语言模型的输入。
-
公开(公告)号:CN118053073A
公开(公告)日:2024-05-17
申请号:CN202410269341.2
申请日:2024-03-08
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/10 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本说明书实施例提供一种遥感图像处理方法及装置,将遥感图像的时间特征和空间特征解耦,先提取空间特征,再拼接并嵌入时间特征,然后将时间特征和空间特征融合,再以聚类方式确定目标区域的各个位置点的目标分类结果。该实施方式通过级联的2D网络架构代替3D网络架构,从而不仅使得网络参数量大大减少,而且可以提升遥感解译效果。
-
公开(公告)号:CN117975070A
公开(公告)日:2024-05-03
申请号:CN202410303395.6
申请日:2024-03-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/762 , G06V10/764 , G06V10/26 , G06V10/80 , G06V20/13 , G06V20/70 , G06N3/0499 , G06N3/08
Abstract: 本说明书实施例提供了一种遥感图像的预处理方法、表征确定方法及装置。在遥感模型的预训练阶段,可以将全局遥感图像划分成多个子图区域,通过特征提取模型确定子图区域中多个图点特征。然后,基于图点特征对图点进行聚类,进而得到子图区域中图点对应的聚类中心,该聚类中心可以作为该子图区域的表征。在遥感模型的微调阶段,在得到一个遥感图像时,可以将该遥感图像与全局遥感图像中在子图区域进行匹配,并从匹配的子图区域中找到对应的目标图点,将目标图点对应的聚类中心与遥感图像进行特征融合,从而得到遥感图像的表征,进而可以用于对遥感图像进行解译。遥感图像中包含隐私数据,在数据处理过程中需要进行隐私保护。
-
公开(公告)号:CN117556273B
公开(公告)日:2024-04-05
申请号:CN202410016072.9
申请日:2024-01-05
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/22 , G06F18/213 , G06N3/063
Abstract: 本说明书实施例提供了一种通过多图形处理器计算对比损失的方法和装置,该方法包括:通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征,其中,每个处理器组包括一至多个图形处理器,每个图形处理器分别处理目标批次样本包含的至少一个样本的特征;各个处理器组分别确定处理器组包含的图形处理器处理的特征之间的局部特征相似度,并将局部特征相似度保存到处理器组包括的图形处理器的对应显存中;分别根据各个处理器组包括的图形处理器的对应显存中保存的局部特征相似度,确定各个处理器组对应的分组对比损失;根据各个处理器组对应的分组对比损失,确定整体对比损失。
-
公开(公告)号:CN117521759A
公开(公告)日:2024-02-06
申请号:CN202410010377.9
申请日:2024-01-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/08 , G06N3/045 , G06N3/0499 , G06F40/289
Abstract: 本说明书实施例提供一种大模型的训练方法和装置,所述大模型包括具有相同第一结构的第一数目个第一网络层;方法包括:在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;在取消所述第一约束条件限制的情况下,对初步训练后的所述大模型进行继续训练。能够保证模型快速收敛。
-
公开(公告)号:CN117456538A
公开(公告)日:2024-01-26
申请号:CN202311414531.0
申请日:2023-10-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/19
Abstract: 本说明书实施例涉及一种训练文字识别模型的方法及装置,方法包括:首先,将第一训练集中的任一目标图像输入到第一文字识别模型中,得到对于目标图像中各个字符属于特定字符类别的预测结果。然后,对于目标字符类别,根据预测结果中属于目标字符类别的第一字符数量,以及属于目标字符类别并且置信度大于第一阈值的第二字符数量,确定目标字符类别对应的目标学习状态值。接下来,根据目标学习状态值与第一阈值,确定目标字符类别对应的目标类别阈值。然后,确定属于目标字符类别并且置信度大于目标类别阈值的目标字符,并将目标字符类别作为目标字符的标签,形成第二训练集。最后,基于第二训练集,对第二文字识别模型进行训练。
-
-
-
-
-
-
-
-
-