-
公开(公告)号:CN117422783A
公开(公告)日:2024-01-19
申请号:CN202311206816.5
申请日:2023-09-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T11/00 , G06V10/40 , G06V10/80 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本说明书实施例公开了一种图像样本生成模型的训练方法,包括获取至少一张银行卡图像作为原始图像;基于伪造任务,确定所述原始图像中的伪造区域和伪造内容;基于所述伪造区域,确定位置约束条件文本;确定内容约束条件文本,以描述所述伪造内容;确定内容指导文本,以描述所述伪造任务;将所述原始图像输入预训练的扩散模型中进行图像样本生成,并在反向扩散过程中,通过所述位置约束条件文本、所述内容约束条件文本和所述内容指导文本对所述扩散模型进行微调。相应地,本发明公开了图像样本生成方法及装置。
-
公开(公告)号:CN116245773A
公开(公告)日:2023-06-09
申请号:CN202211679279.1
申请日:2022-12-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T5/50 , G06V40/16 , G06V10/774
Abstract: 本说明书公开了一种人脸合成模型训练方法、装置、存储介质及电子设备,在本说明书提供的方法中,获取人脸图像并对其进行调整,将调整后的人脸图像的人脸区域的图像作为目标图像,将目标图像与调整前的人脸图像进行人脸合成的图像作为训练样本,输入待训练的人脸合成模型,以模型输出的优化图像与调整前的人脸图像的差异最小为训练目标训练待训练的人脸合成模型。从上述方法中可以看出,本方法预先对人脸图像进行调整与合成得到训练样本,然后以模型的输出图像与调整前的人脸图像的差异最小为训练目标训练待训练的人脸合成模型,通过这种方法训练得到的人脸合成模型能够使人脸合成图像的前景与背景之间的差异更小。
-
公开(公告)号:CN116206309A
公开(公告)日:2023-06-02
申请号:CN202310187135.2
申请日:2023-02-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/70 , G06V10/774 , G06V10/764 , G06V10/74 , G06V10/40
Abstract: 本说明书实施例提供了一种图像识别方法、训练图像识别模型的方法及对应装置。主要技术方案包括:获取待识别图像;利用图像识别模型确定所述待识别图像对应的图像类别;其中,所述图像识别模型提取所述待识别图像的视觉特征表示;利用所述待识别图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到所述待识别图像的融合特征表示,该融合特征表示包括所述待识别图像在各属性词上的置信度分布;利用所述待识别图像的融合特征表示预测所述待识别图像对应的图像类别。本申请能够提高图像识别在细粒度图像类别上的识别准确性。
-
公开(公告)号:CN117095420A
公开(公告)日:2023-11-21
申请号:CN202310865101.4
申请日:2023-07-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/418 , G06V30/18 , G06V30/19 , G06V10/80
Abstract: 本说明书实施例公开了一种图像文本匹配方法,包括:对目标交互页面进行预处理,确定目标交互页面中的元素图像和OCR描述文本的初步匹配关系,得到第一图像文本对;通过预设匹配模型的视觉特征提取网络提取第一图像文本对中元素图像的视觉特征;通过匹配模型的文本特征提取网络提取第一图像文本对中OCR描述文本的第一文本特征,并提取预设分类标签的类别描述文本的第二文本特征;通过匹配模型的特征融合模块对视觉特征、第一文本特征和第二文本特征进行特征融合,得到第三文本特征;通过匹配模型的分类器对第三文本特征和视觉特征进行匹配,得到目标交互页面中元素图像和OCR描述文本的匹配关系。相应地,本发明公开了图像文本匹配装置。
-
公开(公告)号:CN116152933A
公开(公告)日:2023-05-23
申请号:CN202211600732.5
申请日:2022-12-12
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V40/40 , G06V40/16 , G06V10/762 , G06V10/82 , G06N3/09
Abstract: 本说明书公开了一种异常检测模型的训练方法、装置、设备及存储介质,获取真实人脸图像作为正样本,获取合成人脸图像作为负样本,并将各正样本和负样本作为训练样本,通过特征提取层提取各训练样本的样本特征,通过分类层得到各训练样本的检测结果,以及基于各正样本的样本特征确定用于表征正样本的共性的代表特征。再根据各正样本的样本特征和代表特征之间的差异、各负样本的样本特征和代表特征之间的差异,以及各训练样本的检测结果及其标注之间的差异对异常检测模型进行训练。本方法可基于代表特征,学习到准确的特征提取方式,以便于后续准确提取人脸图像的人脸特征来进行准确地异常检测,保证了异常检测的准确性。
-
公开(公告)号:CN119295999A
公开(公告)日:2025-01-10
申请号:CN202411383312.5
申请日:2024-09-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/40 , G06V10/74 , G06V10/764
Abstract: 本说明书一个或多个实施例公开了一种视频数据处理方法及装置。该方法首先获取目标视频以及与目标视频的视频类别相关的多个视频类别标签,其次,通过图文跨模态预训练模型对目标视频进行特征提取,得到目标视频的文本特征和包括多个视频帧的第二视频特征,并将目标视频的第二视频特征输入训练后的视频调制模型中,通过视频调制模型中的时序调制矩阵在预设时间段内对目标视频进行调制处理,得到目标视频对应的调制处理后的第二视频特征,最后计算调制处理后的第二视频特征和多个视频类别标签之间的第一相似度,计算调制处理后的第二视频特征和目标视频的文本特征之间的第二相似度,并基于第一相似度和第二相似度确定目标视频的视频类别。
-
公开(公告)号:CN116704178A
公开(公告)日:2023-09-05
申请号:CN202310361842.9
申请日:2023-04-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/26 , G06V10/40 , G06V10/22 , G06V10/30 , G06V10/82 , G06V10/80 , G06V10/28 , G06V10/774 , G06V10/764 , G06N3/0455 , G06N3/08
Abstract: 本说明书公开了一种图像的实例分割方法、装置、存储介质和电子设备,获取待分割图像以及若干待调整定位框;将所述待分割图像输入所述编码端,以提取所述待分割图像的多尺度特征,将多尺度特征输入所述解码端,以检测所述待分割图像中的各目标,针对每个目标,将各待调整定位框作为包含噪声的定位框输入所述解码端,对各待调整定位框进行去噪,得到用于定位该目标的标准定位框,所述噪声为导致各待调整定位框相对于该目标的标准定位框存在差异的噪声,根据该目标的标准定位框和所述多尺度特征,从所述待分割图像中分割该目标。本方法通过除去图像噪声,实现对图像进行实例分割。
-
公开(公告)号:CN118839789A
公开(公告)日:2024-10-25
申请号:CN202410978378.2
申请日:2024-07-19
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种模型训练方法、图像生成方法、装置及电子设备。在此方法中,首先获取基础图像以及第一描述文本,将基础图像以及第一描述文本输入到待训练的图像生成模型中,以使图像生成模型确定基础图像对应的图像特征以及第一描述文本对应的文本特征,并基于基础图像对应的图像特征以及第一描述文本对应的文本特征,生成目标对象以参考对象的体貌特征在指定环境中的图像,作为输出图像,根据输出图像对应的图像特征与基础图像对应的图像特征之间的特征偏差,以及输出图像所表达的图像内容的特征与第一描述文本对应的文本特征之间的相似度,确定综合损失函数值,并根据综合损失函数值,对图像生成模型进行训练。
-
公开(公告)号:CN119006957A
公开(公告)日:2024-11-22
申请号:CN202411124386.7
申请日:2024-08-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G06V10/82 , G06V40/70 , G06N3/0464 , G06N3/08
Abstract: 本说明书实施例公开了一种模型的处理方法、装置及设备,该方法包括:从用于训练学生模型的多批图像样本中获取第一批图像样本,第一批图像样本中包括多张不同的图像样本,以及图像样本被掩码处理后的掩码图像;将多张图像样本输入到学生模型对应的教师模型中,分别得到每张图像样本对应的第一预测结果,并将多张掩码图像输入到学生模型中,分别得到每张掩码图像对应的第二预测结果;基于第一预测结果,确定多张图像样本之间的关联关系信息,并基于多张图像样本之间的关联关系信息对第二预测结果进行调制处理,得到每张掩码图像对应的重建图像的预测编码信息;基于第一预测结果和预测编码信息,对学生模型进行训练。
-
公开(公告)号:CN118626663A
公开(公告)日:2024-09-10
申请号:CN202410853865.6
申请日:2024-06-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/45 , G06F16/48 , G06F18/213 , G06F18/24
Abstract: 本说明书公开了一种模型训练和任务执行方法、装置、存储介质及设备。该模型训练方法包括:获取多媒体数据,并确定用于描述多媒体数据的内容的关键词;将多媒体数据输入待训练的分类模型,以通过分类模型,确定多媒体数据对应的分类结果,以及,将关键词输入预设的大语言模型,以通过大语言模型,基于指定的信息生成条件,生成多媒体数据对应的数据描述信息;根据分类结果和数据描述信息,对分类模型进行训练。本方案通过大语言模型对粗粒度的文本标签进行细化,以细粒度的数据描述信息作为新的标签来训练分类模型,充分提高了分类模型的分类能力和表征能力。
-
-
-
-
-
-
-
-
-