Patent search ap:("支付宝(杭州)信息技术有限公司") AND inv:"宋乐" Page 1

1.

发明授权
确定执行设备的动作选择方针的方法和装置有权

公开(公告)号：CN112437690B

公开(公告)日：2024-07-12

申请号：CN202080003374.2

申请日：2020-04-02

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 李辉 , 宋乐

IPC: G06F9/455 , G06N3/08

Abstract: 描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置，包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。对于子任务序列中除第一个子任务之外的指定子任务，训练值神经网络(VNN)。该VNN接收包括达到指定子任务的子任务初始状态的达到概率的输入，并预测执行设备在指定子任务的子任务初始状态下的奖励。基于VNN训练针对指定子任务之前的先前子任务的策略神经网络(SNN)。该SNN接收包括达到先前子任务的子任务状态的动作序列，并预测执行设备在先前子任务的子任务状态下的动作选择方针。

2.

发明授权
确定执行设备的动作选择方针有权

公开(公告)号：CN112041811B

公开(公告)日：2022-09-16

申请号：CN201980028438.1

申请日：2019-12-12

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 李辉 , 宋乐

IPC: G06F8/30

Abstract: 本文公开了用于生成动作选择方针以在环境中完成任务的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。所述方法包括：识别一个状态下的多个可能动作，其中，该状态对应于信息集向量；识别该状态下的当前动作选择方针向量，其中，当前动作选择方针向量中的每个当前动作选择方针对应于信息集向量中的一个信息集；基于该状态下的当前动作选择方针向量计算采样方针；根据采样方针中指定的该状态下的多个可能动作中的一个动作的采样概率，对该动作进行采样；基于该动作更新执行设备在该状态下的每个当前动作选择方针。

3.

发明授权
利用LSTM神经网络模型处理交互数据的方法及装置有权

公开(公告)号：CN111210008B

公开(公告)日：2022-05-24

申请号：CN202010022183.2

申请日：2020-01-09

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 常晓夫 , 文剑烽 , 刘旭钦 , 宋乐

IPC: G06N3/04 , G06N3/08

Abstract: 本说明书实施例提供一种处理交互数据的方法和装置。在该方法中，首先获取根据交互事件集构建的动态交互图，图中的任意节点i通过连接边指向该节点i所代表的对象上次参与的N个关联事件所对应的M个关联节点，其中，允许对象同时参与多个关联事件，允许节点连接到多于2个的关联节点。然后，在动态交互图中，确定与待分析的当前节点对应的当前子图，并将当前子图输入神经网络模型进行处理。神经网络模型包括LSTM层，LSTM层根据当前子图中各个节点之间的连接边的指向关系，依次迭代处理各个节点，从而得到当前节点的隐含向量。

4.

发明授权
确定执行设备的动作选择方针有权

公开(公告)号：CN112041875B

公开(公告)日：2022-04-22

申请号：CN201980028669.2

申请日：2019-12-12

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 李辉 , 宋乐

IPC: G06Q30/02

Abstract: 本文公开了用于生成执行设备的动作选择方针以在环境中完成任务的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。所述方法包括：在当前迭代中，基于执行设备的收益以及其他设备到达终点状态的到达概率，计算执行设备在终点状态下的反事实值(CFV)；计算执行设备在终点状态下的经基线校正的CFV；对于具有子状态的每个非终点状态，基于执行设备在子状态下的经基线校正的CFV的加权和，计算执行设备在非终点状态下的CFV；计算执行设备在非终点状态下的经基线校正的CFV和CFV基线；确定针对下一次迭代的非终点状态下的动作选择方针。

5.

发明公开
确定执行设备的动作选择方针有权

公开(公告)号：CN112437690A

公开(公告)日：2021-03-02

申请号：CN202080003374.2

申请日：2020-04-02

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 李辉 , 宋乐

IPC: A63F13/56 , G06N3/08

Abstract: 描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置，包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。对于子任务序列中除第一个子任务之外的指定子任务，训练值神经网络(VNN)。该VNN接收包括达到指定子任务的子任务初始状态的达到概率的输入，并预测执行设备在指定子任务的子任务初始状态下的奖励。基于VNN训练针对指定子任务之前的先前子任务的策略神经网络(SNN)。该SNN接收包括达到先前子任务的子任务状态的动作序列，并预测执行设备在先前子任务的子任务状态下的动作选择方针。

6.

发明公开
优化风险检测模型的方法及装置有权

公开(公告)号：CN112200380A

公开(公告)日：2021-01-08

申请号：CN202011147798.4

申请日：2020-10-23

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 李辉 , 李勇锋 , 金宏 , 王维强 , 宋乐

IPC: G06Q10/04 , G06Q10/06 , G06N20/00

Abstract: 本说明书实施例提供一种优化风险检测模型的方法和装置，该方法包括，首先获取样本集，其中包括具有第一标签值的正常样本和具有第二标签值的原始风险样本。对于各个原始风险样本，根据训练风险检测模型使用的损失函数以及当前的风险检测模型，确定攻击者对该原始风险样本进行潜在攻击变换而得到的对抗风险样本。然后基于损失函数，确定风险检测模型针对各个对抗风险样本的第一预测损失，以及针对各个正常样本的第二预测损失；并至少基于该第一和第二预测损失，确定总预测损失。接着，以总预测损失最小化为目标，调整风险检测模型的模型参数，以优化该风险检测模型。

7.

发明公开
利用LSTM神经网络模型处理交互数据的方法及装置有权

公开(公告)号：CN111210008A

公开(公告)日：2020-05-29

申请号：CN202010022183.2

申请日：2020-01-09

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 常晓夫 , 文剑烽 , 刘旭钦 , 宋乐

IPC: G06N3/04 , G06N3/08

Abstract: 本说明书实施例提供一种处理交互数据的方法和装置。在该方法中，首先获取根据交互事件集构建的动态交互图，图中的任意节点i通过连接边指向该节点i所代表的对象上次参与的N个关联事件所对应的M个关联节点，其中，允许对象同时参与多个关联事件，允许节点连接到多于2个的关联节点。然后，在动态交互图中，确定与待分析的当前节点对应的当前子图，并将当前子图输入神经网络模型进行处理。神经网络模型包括LSTM层，LSTM层根据当前子图中各个节点之间的连接边的指向关系，依次迭代处理各个节点，从而得到当前节点的隐含向量。

8.

发明授权
确定执行设备的动作选择方针有权

公开(公告)号：CN112533681B

公开(公告)日：2024-07-12

申请号：CN202080004369.3

申请日：2020-04-02

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 李辉 , 宋乐

IPC: G06F9/455 , G06N3/08

Abstract: 描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置，包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。获得指定了针对所述子任务序列中的子任务的策略神经网络(SNN)的数据。SNN接收包括由达到所述子任务的初始状态的动作序列的输入，并预测所述执行设备针对所述子任务的动作选择方针。所述SNN是基于针对所述子任务序列中该子任务之后的下一个子任务的值神经网络(VNN)来训练的。确定向SNN的输入。所述输入包括达到所述子任务的子任务初始状态的动作序列。基于所述SNN的输出确定用于完成所述子任务的动作选择方针。

9.

发明授权
训练交互预测模型、预测交互事件的方法及装置有权

公开(公告)号：CN112085279B

公开(公告)日：2022-09-06

申请号：CN202010955099.6

申请日：2020-09-11

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 文剑烽 , 常晓夫 , 宋乐 , 刘旭钦

IPC: G06Q10/04 , G06N3/04 , G06N3/08 , G06N20/00

Abstract: 本说明书实施例提供一种交互预测模型的训练和使用方法及装置。在该方法中，首先基于交互事件序列构建动态交互图，从中确定出包含第一节点和第二节点的样本节点对，其对应于样本交互事件。从第一生成网络和第一判别网络分别获取，对应于两个节点各自的生成向量和判别向量。利用第二生成网络，基于两个生成向量预测样本交互事件的发生时间。接着，基于两个生成向量和该预测时间形成第一输入，基于两个判别向量和真实时间形成第二输入，通过第二判别网络，判别第一输入和第二输入各自为真实事件的概率。基于此对抗训练第二生成网络和第二判别网络。训练后的第一生成网络和第二生成网络作为用于预测交互事件的交互预测模型。

10.

发明授权
一种目标用户的选择方法和装置有权

公开(公告)号：CN111027676B

公开(公告)日：2022-03-18

申请号：CN201911194019.3

申请日：2019-11-28

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 李晨晨 , 阎翔 , 乔俊龙 , 屈超 , 熊君武 , 宋乐

IPC: G06N3/04 , G06N3/08 , G06Q30/02

Abstract: 本说明书实施例提供一种目标用户的选择方法和装置，其中，所述方法包括：对于待选用户群体中的每一个用户，分别执行如下处理：将所述用户的用户特征输入预先训练的策略决定网络，得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值，所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值；根据所述待选用户群体中各个用户的所述操作奖励值，选择所述操作奖励值符合筛选条件的用户作为所述目标用户。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification