-
公开(公告)号:CN112437690A
公开(公告)日:2021-03-02
申请号:CN202080003374.2
申请日:2020-04-02
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置,包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。对于子任务序列中除第一个子任务之外的指定子任务,训练值神经网络(VNN)。该VNN接收包括达到指定子任务的子任务初始状态的达到概率的输入,并预测执行设备在指定子任务的子任务初始状态下的奖励。基于VNN训练针对指定子任务之前的先前子任务的策略神经网络(SNN)。该SNN接收包括达到先前子任务的子任务状态的动作序列,并预测执行设备在先前子任务的子任务状态下的动作选择方针。
-
公开(公告)号:CN112200380A
公开(公告)日:2021-01-08
申请号:CN202011147798.4
申请日:2020-10-23
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种优化风险检测模型的方法和装置,该方法包括,首先获取样本集,其中包括具有第一标签值的正常样本和具有第二标签值的原始风险样本。对于各个原始风险样本,根据训练风险检测模型使用的损失函数以及当前的风险检测模型,确定攻击者对该原始风险样本进行潜在攻击变换而得到的对抗风险样本。然后基于损失函数,确定风险检测模型针对各个对抗风险样本的第一预测损失,以及针对各个正常样本的第二预测损失;并至少基于该第一和第二预测损失,确定总预测损失。接着,以总预测损失最小化为目标,调整风险检测模型的模型参数,以优化该风险检测模型。
-