利用博弈论更新推荐模型的方法及装置

    公开(公告)号:CN112149824B

    公开(公告)日:2022-07-22

    申请号:CN202010968311.2

    申请日:2020-09-15

    Abstract: 本说明书实施例提供一种更新推荐模型的方法和装置,其中推荐模型包括通过强化学习实现的智能体。方法包括:获取针对目标用户的当前推荐状态,将其输入智能体,智能体根据推荐策略,从备选动作集中确定针对目标用户的推荐动作。其中,推荐策略通过策略参数进行表征。然后,确定在执行上述推荐动作的情况下,按照推荐策略进行推荐的期望收益,作为第一收益;确定在推荐策略下,执行所有备选动作的预期平均收益,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行推荐动作的遗憾度表示。根据上述遗憾度表示,确定对策略参数的更新梯度;于是根据更新梯度,更新智能体中的推荐策略。

    确定执行设备的动作选择方针

    公开(公告)号:CN112997198B

    公开(公告)日:2022-07-15

    申请号:CN201980028594.8

    申请日:2019-12-12

    Inventor: 李辉 宋乐

    Abstract: 本文公开了用于生成动作选择方针以在环境中完成任务的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法包括:基于采样方针和探索方针计算执行设备在一个状态下的混合采样方针,其中,所述探索方针指定与所述状态下的多个可能动作中的每个动作相对应的相应的探索概率,探索概率与所述状态下的多个可能动作中的每个动作已被采样的次数负相关;根据混合采样方针中指定的动作的采样概率,对所述状态下的多个可能动作中的一个动作进行采样;以及通过基于所述动作执行蒙特卡罗反事实遗憾最小化来更新在所述状态下的动作选择方针。

    开锁方法和系统
    13.
    发明公开

    公开(公告)号:CN113470224A

    公开(公告)日:2021-10-01

    申请号:CN202110664327.9

    申请日:2021-06-16

    Inventor: 郭炯光 李辉

    Abstract: 本说明书提供的开锁方法和系统,目标客户端可以主动向目标门锁发起开锁请求,开锁请求中包括基于子密钥对目标客户端的身份标识进行加密得到的加密密文。目标门锁使用目标主密钥对加密密文进行解密,以对目标客户端进行身份验证,以验证目标客户端是否具有开锁权限,只有在目标客户端具有开锁权限的情况下,才会开锁。本说明书提供的开锁方法和系统,将目标门锁作为一个存储身份信息智能卡,而将目标客户端作为具有读取功能的读卡机,开锁过程需要目标客户端主动发起,因此攻击者无法通过中间设备读取目标客户端的数据信息,从而防止接力攻击,提高安全性。

    对事件特征进行处理的方法、神经网络模型和装置

    公开(公告)号:CN113255891A

    公开(公告)日:2021-08-13

    申请号:CN202110587002.5

    申请日:2021-05-27

    Inventor: 李辉 傅幸 王维强

    Abstract: 本说明书实施例提供一种通过高阶特征交互对事件进行处理的方法和神经网络模型。在该方法中,首先获取目标事件的编码向量;然后对该编码向量进行非线性变换,得到第一特征向量,其中所有元素均为正数。接着,对于多种高阶特征组合中任意的第一组合,利用与第一组合对应的第一组合矩阵处理该第一特征向量的自然对数,得到中间向量,并基于中间向量的自然指数确定第一组合对应的特征交互向量;其中,多种高阶特征组合中每种组合,对应于第一特征向量中多个向量元素的相乘组合。于是,至少基于上述多种高阶特征组合各自对应的特征交互向量,确定目标事件的事件表征向量;进而进行与事件相关的业务预测。

    对抗样本生成模型的训练方法及装置

    公开(公告)号:CN113222480A

    公开(公告)日:2021-08-06

    申请号:CN202110656184.7

    申请日:2021-06-11

    Inventor: 李辉 王维强

    Abstract: 本说明书实施例提供一种生成对抗样本的生成模型的训练方法和装置,该方法包括,首先获取原始样本构成的样本集,其中包括正常样本和风险样本;还获取风险检测模型及其对应的损失函数。针对样本集中各个原始样本,利用生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本;利用风险检测模型确定各个变换样本的各个风险预测值;以正常样本对应的标签值为比对标签值,分别将各个风险预测值代入前述损失函数,得到各个变换样本的对抗损失;至少根据各个变换样本的对抗损失的综合确定总对抗损失;以最小化总对抗损失为目标,调整生成模型中的参数。

    利用博弈论更新推荐模型的方法及装置

    公开(公告)号:CN112149824A

    公开(公告)日:2020-12-29

    申请号:CN202010968311.2

    申请日:2020-09-15

    Abstract: 本说明书实施例提供一种更新推荐模型的方法和装置,其中推荐模型包括通过强化学习实现的智能体。方法包括:获取针对目标用户的当前推荐状态,将其输入智能体,智能体根据推荐策略,从备选动作集中确定针对目标用户的推荐动作。其中,推荐策略通过策略参数进行表征。然后,确定在执行上述推荐动作的情况下,按照推荐策略进行推荐的期望收益,作为第一收益;确定在推荐策略下,执行所有备选动作的预期平均收益,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行推荐动作的遗憾度表示。根据上述遗憾度表示,确定对策略参数的更新梯度;于是根据更新梯度,更新智能体中的推荐策略。

    确定执行设备的动作选择方针

    公开(公告)号:CN112041811A

    公开(公告)日:2020-12-04

    申请号:CN201980028438.1

    申请日:2019-12-12

    Inventor: 李辉 宋乐

    Abstract: 本文公开了用于生成动作选择方针以在环境中完成任务的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法包括:识别一个状态下的多个可能动作,其中,该状态对应于信息集向量;识别该状态下的当前动作选择方针向量,其中,当前动作选择方针向量中的每个当前动作选择方针对应于信息集向量中的一个信息集;基于该状态下的当前动作选择方针向量计算采样方针;根据采样方针中指定的该状态下的多个可能动作中的一个动作的采样概率,对该动作进行采样;基于该动作更新执行设备在该状态下的每个当前动作选择方针。

    信息生成的方法及装置
    18.
    发明公开

    公开(公告)号:CN120068954A

    公开(公告)日:2025-05-30

    申请号:CN202510222718.3

    申请日:2025-02-26

    Abstract: 本说明书实施例提供一种信息生成的方法及装置,本说明书的技术构思下提供的信息生成的方法,在利用生成模型进行信息生成过程中,通过依次执行的多个元素预测周期,生成目标信息。在单个元素预测周期,可以获取生成模型的中间层针对当前输入数据输出的编码张量,其中包括各条初始提示信息分别对应的各个编码向量,以及关于已生成的元素序列的隐藏表征。然后,针对各个中间层,分别根据相应的编码向量及隐藏表征确定对初始提示信息的信息内容保留最多的第一目标层,将第一目标层对应的第一输出结果与最后一个中间层对应的第二输出结果进行融合,根据融合结果预测下一个元素。如此,可以有效减少产生模型幻觉。

    确定执行设备的动作选择方针

    公开(公告)号:CN112533681B

    公开(公告)日:2024-07-12

    申请号:CN202080004369.3

    申请日:2020-04-02

    Inventor: 李辉 宋乐

    Abstract: 描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置,包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。获得指定了针对所述子任务序列中的子任务的策略神经网络(SNN)的数据。SNN接收包括由达到所述子任务的初始状态的动作序列的输入,并预测所述执行设备针对所述子任务的动作选择方针。所述SNN是基于针对所述子任务序列中该子任务之后的下一个子任务的值神经网络(VNN)来训练的。确定向SNN的输入。所述输入包括达到所述子任务的子任务初始状态的动作序列。基于所述SNN的输出确定用于完成所述子任务的动作选择方针。

    电能充值处理方法及装置
    20.
    发明公开

    公开(公告)号:CN118261606A

    公开(公告)日:2024-06-28

    申请号:CN202410346735.3

    申请日:2024-03-25

    Abstract: 本说明书实施例提供了电能充值处理方法及装置,其中,一种电能充值处理方法包括:在电能充值过程中,接收并响应用户终端发送的电能充值请求,读取与放电设备绑定的用户电能账户,查询用户在电能充值服务配置的充值策略,按照充值策略对电量信息进行充值核验,若核验通过,基于放电设备的电量信息创建用户电能账户的电能充值订单并进行订单支付,生成充值成功消息向用户终端返回。

Patent Agency Ranking