一种语言模型的预训练方法、装置、介质及电子设备

    公开(公告)号:CN118690848A

    公开(公告)日:2024-09-24

    申请号:CN202410703975.4

    申请日:2024-05-31

    摘要: 本说明书公开了一种语言模型的预训练方法、装置、介质及电子设备,可获取第一样本文本,第一样本文本为结构化文本,并提取第一样本文本中的各字段。针对提取出的每个字段,根据该字段的属性以及属性值,确定该字段对应的标识符,并根据确定出的各字段对应的标识符,得到第一样本文本对应的标识符序列。将标识符序列输入语言模型,得到标识符序列对应的文本特征,以根据文本特征以及预设的训练任务,对语言模型中的编码端进行预训练。通过使用标识符去对结构化文本中的字段进行替换,进而使用结构化文本对应的标识符序列去训练语言模型,使得训练得到的语言模型可以学习到结构化文本中的特征的关联关系以及潜在关系,提高了语言模型的准确度。

    一种训练样本生成方法及联邦学习方法

    公开(公告)号:CN113850309B

    公开(公告)日:2024-09-17

    申请号:CN202111082326.X

    申请日:2021-09-15

    摘要: 本说明书一个或多个实施例提供一种训练样本生成及联邦学习方法,应用于至少两个相互协作的数据提供方之间的任一数据提供方,接收协作数据提供方发送的,用于表征每个特征的取值分布的特征值分布集合,并根据特征值分布集合,生成符合该特征值分布集合所表征的分布的数据,将生成的数据作为新的训练样本。由于接收的是表征特征的取值分布的特征值分布集合,使得该数据提供方无法通过接收的数据,反解得到每个用户的数据,保护了数据隐私;且使得该数据提供方得以生成足够的训练样本,实现了在保护数据隐私情况下的数据共享。

    一种模型训练方法、业务风控方法、装置以及存储介质

    公开(公告)号:CN118627569A

    公开(公告)日:2024-09-10

    申请号:CN202410735484.8

    申请日:2024-06-05

    摘要: 本说明书提供的一种模型训练方法、业务风控方法、装置以及存储介质,可以首先获取第一样本交易数据以及其对应的实际风险层级标签,并将第一样本交易数据输入到过渡模型中包含的特征提取层中,以提取出交易特征,并将交易特征输入到过渡模型中包含的分类层中,以确定出预测风险层级标签,以最小化预测风险层级标签与实际风险层级标签之间的偏差为优化目标,至少对特征提取层进行训练,通过训练后的特征提取层以及预设的各目标分类层,构建目标模型,并将第二样本交易数据输入到目标模型中,以通过目标模型确定出预测风险识别结果,以最小化预测风险识别结果与第二样本交易数据对应的实际风险识别结果之间的偏差为优化目标,对目标模型进行训练。

    一种核身推荐模型训练方法及装置

    公开(公告)号:CN114462502B

    公开(公告)日:2024-07-12

    申请号:CN202210011293.8

    申请日:2022-01-06

    摘要: 本说明书公开了一种核身推荐模型训练方法及装置。所述方法包括:获取训练样本集合;所述训练样本集合包括不同业务场景中标注有核身产品推荐标签的训练样本;根据所述训练样本集合,预训练所述表征模型;预训练后的表征模型用于将输入的样本特征映射到第一向量空间中,针对相同推荐标签的样本减小第一向量空间映射结果之间的距离;获取任一业务场景中的若干训练样本,将所获取的训练样本输入所述预训练后的表征模型得到第一向量空间映射结果,根据所获取训练样本的第一向量空间映射结果和核身产品推荐标签,训练该业务场景对应的预测模型。

    一种支付风险识别方法、装置及设备

    公开(公告)号:CN113516480B

    公开(公告)日:2024-04-26

    申请号:CN202110953376.4

    申请日:2021-08-19

    摘要: 本说明书一个或多个实施例提供了一种支付风险识别方法、装置及设备,该方法包括:若针对目标用户的本次支付交易事件执行到支付处理链路中的第一预设处理节点,则利用深度兴趣网络模型,基于目标用户的历史支付交易数据和当前支付环境数据,确定目标用户的预测支付行为数据;利用预设风险识别模型并基于上述预测支付行为数据,对本次支付交易事件进行风险识别,得到相应的预测支付风险识别结果;在本次支付交易事件执行到第二预设处理节点时,获取在本次支付交易事件执行过程中所产生的目标用户的真实支付行为数据;基于上述预测支付行为数据、真实支付行为数据和预测支付风险识别结果,确定本次支付交易事件对应的目标支付风险识别结果。

    一种训练风险识别模型的方法及装置

    公开(公告)号:CN117743856A

    公开(公告)日:2024-03-22

    申请号:CN202311845208.9

    申请日:2023-12-28

    摘要: 本说明书实施例涉及一种训练风险识别模型的方法及装置,方法包括:首先,获取有硬标签的第一样本集,以及无标签的第二样本集,任一样本集包括交易样本,硬标签指示交易是否为风险交易。然后,基于插值法对第一样本集进行样本增强,并使用增强后的第一样本集训练得到第一模型。接下来,将第一样本集和第二样本集构成的样本总集中的各个交易样本输入到第一模型中,得到关于风险预测的软标签。最后,将第一样本集中的交易样本输入到第二模型中,基于硬标签确定第一损失;将样本总集中的交易样本输入到第二模型中,基于软标签确定第二损失;基于第一损失和第二损失所确定的总预测损失,对第二模型进行训练,第二模型用于预测交易是否为风险交易。

    一种模型的防盗取检测方法、装置、存储介质及电子设备

    公开(公告)号:CN117592056A

    公开(公告)日:2024-02-23

    申请号:CN202311564982.2

    申请日:2023-11-21

    摘要: 本说明书公开了一种模型的防盗取检测方法、装置、存储介质和电子设备,防盗取检测模型包括克隆器及生成器,克隆器用于克隆预先训练的业务模型,生成器用于生成输入所述克隆器的仿真业务数据。先将噪声输入生成器,获得第一仿真业务数据,并通过克隆器获得第一仿真业务数据的第一业务结果。再根据第一业务结果及第一仿真业务数据,以提高克隆器输出结果的错误率为训练目标,对生成器进行训练。接着,将噪声输入训练后的生成器,获得第二仿真业务数据,通过克隆器及业务模型获得第二仿真业务数据的第二业务结果及标签。最后,根据第二业务结果及标签,对克隆器进行训练,利用训练过程中的克隆器的迭代次数,检测业务模型的防盗取能力。

    一种模型训练的方法、装置、存储介质及电子设备

    公开(公告)号:CN117312847A

    公开(公告)日:2023-12-29

    申请号:CN202311146762.8

    申请日:2023-09-06

    IPC分类号: G06F18/214

    摘要: 本说明书公开了一种模型训练的方法、装置、存储介质和电子设备,所述方法包括:针对各训练样本,确定该训练样本中指定类型的数据为指定数据,并将指定数据输入待训练的风险识别模型的第一编码层,确定该训练样本的第一特征。将该训练样本中所有类型的数据输入待训练的风险识别模型的第二编码层,确定该训练样本的第二特征。以该训练样本的第一特征与该训练样本的第二特征之间的距离最小和该训练样本的第一特征与除该训练样本外的其他训练样本的第二特征之间的距离最大为目标,至少对待训练的风险识别模型中第二编码层的模型参数进行调整。通过第一特征指导第二编码层对训练样本进行特征提取,更好地表征用户存在的风险,提高识别结果准确性。

    一种数据的处理方法、装置及设备

    公开(公告)号:CN117290735A

    公开(公告)日:2023-12-26

    申请号:CN202311140828.2

    申请日:2023-09-05

    发明人: 施玮 傅欣艺 傅幸

    IPC分类号: G06F18/22 G06F18/23

    摘要: 本说明书实施例公开了一种数据的处理方法、装置及设备,该方法包括:获取预设时长内多个不同用户触发目标业务执行的过程中产生的行为序列数据,然后,可以确定能够表征每个行为序列数据的表征信息,基于确定的多个表征信息对行为序列数据进行聚类处理,得到一个或多个不同的聚类簇,之后,可以将相似度大于预设相似度阈值的行为序列数据对应的操作目的信息和操作意图信息,以及属于同一个聚类簇的行为序列数据作为提示信息,将该提示信息和得到的聚类簇输入到语言模型中,得到不同的聚类簇对应的操作行为的理解信息和/或意图信息,进而可以确定不同的聚类簇对应的类别标签信息。