一种基于多样性和随机策略的模型训练方法及装置

    公开(公告)号:CN117036869B

    公开(公告)日:2024-01-09

    申请号:CN202311293176.6

    申请日:2023-10-08

    Abstract: 本说明书公开了一种基于多样性和随机策略的模型训练方法及装置,待训练的分类模型包含多个基模型,该待训练的分类模型又分为多层切换块,按照前向传播方向依次训练各层切换块,根据各基模型输出的分类结果和标注,确定分类损失,根据各基模型输出的分类结果和样本图像,确定多样性正则损失。在训练过程中,该层切换块的输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像,输出为该层切换块中随机一子模块的输出。这样训练出的分类模型,既保证了模型输出的分类结果准确度,又使各基模型输出的分类结果中各类别对应的概率分布不同,模型的输出为随机一个基模型的输(56)对比文件US 2023206114 A1,2023.06.29WO 2022042123 A1,2022.03.03WO 2022142122 A1,2022.07.07WO 2022213846 A1,2022.10.13WO 2023077603 A1,2023.05.11陈文兵;管正雄;陈允杰.基于条件生成式对抗网络的数据增强方法.计算机应用.2018,(第11期),全文.

    一种基于多样性和随机策略的模型训练方法及装置

    公开(公告)号:CN117036869A

    公开(公告)日:2023-11-10

    申请号:CN202311293176.6

    申请日:2023-10-08

    Abstract: 本说明书公开了一种基于多样性和随机策略的模型训练方法及装置,待训练的分类模型包含多个基模型,该待训练的分类模型又分为多层切换块,按照前向传播方向依次训练各层切换块,根据各基模型输出的分类结果和标注,确定分类损失,根据各基模型输出的分类结果和样本图像,确定多样性正则损失。在训练过程中,该层切换块的输入为该层切换块的上一层切换块中随机一子模块的输出或样本图像,输出为该层切换块中随机一子模块的输出。这样训练出的分类模型,既保证了模型输出的分类结果准确度,又使各基模型输出的分类结果中各类别对应的概率分布不同,模型的输出为随机一个基模型的输出,极大提高了该分类模型的鲁棒性。

    一种强化学习模型训练和业务执行方法、装置及电子设备

    公开(公告)号:CN117725985B

    公开(公告)日:2024-05-24

    申请号:CN202410171178.6

    申请日:2024-02-06

    Abstract: 本说明书公开了一种强化学习模型训练和业务执行方法、装置及电子设备。所述方法包括:获取用户针对指定业务场景构建的强化学习环境数据;响应于用户的指定操作,确定用户基于强化学习环境数据选择的目标智能体,并确定目标智能体的智能体配置信息;在预设算法库中确定出目标强化学习算法;基于目标智能体、智能体配置信息以及目标强化学习算法,构建强化学习模型,并对强化学习模型进行仿真,并将仿真过程中产生的数据存入经验回放池;根据从经验回放池中获取的训练数据以及奖励函数信息对强化学习模型进行训练。本方案极大的降低了用户的使用门槛,充分满足了用户对强化学习环境的多样化需求。

    一种面向体育领域的获奖证书生成方法、装置及电子设备

    公开(公告)号:CN117896076A

    公开(公告)日:2024-04-16

    申请号:CN202410038697.5

    申请日:2024-01-10

    Abstract: 本说明书公开了一种面向体育领域的获奖证书生成方法、装置及电子设备。所述面向体育领域的获奖证书生成方法包括:接收获奖证书的生成请求,并根据生成请求,获取体育赛事的赛事信息、获奖人信息以及奖励信息;在预设的模板库中确定出与赛事信息以及奖励信息相匹配的证书模板,作为目标证书模板,以及,根据赛事信息、获奖人信息以及预设的证书编号生成指定长度的散列值,并基于认证机构预先下发的私钥对散列值进行加密,得到证书签名;将赛事信息、获奖人信息、奖励信息、证书签名添加到目标证书模板中并进行渲染,生成针对获奖人的获奖证书并进行存储。本方案可以自动生成获奖证书,提高了证书生成效率,充分满足用户需求。

    分布式任务处理系统及方法、装置、存储介质以及设备

    公开(公告)号:CN116737345A

    公开(公告)日:2023-09-12

    申请号:CN202311010091.2

    申请日:2023-08-11

    Abstract: 本说明书公开了一种分布式任务处理系统及方法、装置、存储介质以及设备,在对各任务进行处理的过程中,通过调度节点确定各任务的任务信息,并基于各任务信息,确定系统的负载情况,以及在负载情况过高时,确定需要终止的目标任务,将该目标任务的任务标识广播给计算节点。计算节点可根据接收到的目标任务的任务标识,判断自身是否在执行该目标任务,若是,则将该目标任务的状态更新为终止状态,并停止执行该目标任务。本说明书可对分布式处理系统的负载状态进行监控,并在监控到系统负载过高时,自动基于各任务的任务信息,确定需终止的目标任务来进行终止。在不需要增加计算资源的情况下,也可保证该系统的任务处理效率。

    一种强化学习模型训练和业务执行方法、装置及电子设备

    公开(公告)号:CN117725985A

    公开(公告)日:2024-03-19

    申请号:CN202410171178.6

    申请日:2024-02-06

    Abstract: 本说明书公开了一种强化学习模型训练和业务执行方法、装置及电子设备。所述方法包括:获取用户针对指定业务场景构建的强化学习环境数据;响应于用户的指定操作,确定用户基于强化学习环境数据选择的目标智能体,并确定目标智能体的智能体配置信息;在预设算法库中确定出目标强化学习算法;基于目标智能体、智能体配置信息以及目标强化学习算法,构建强化学习模型,并对强化学习模型进行仿真,并将仿真过程中产生的数据存入经验回放池;根据从经验回放池中获取的训练数据以及奖励函数信息对强化学习模型进行训练。本方案极大的降低了用户的使用门槛,充分满足了用户对强化学习环境的多样化需求。

    一种基于非合作博弈的策略生成方法及装置

    公开(公告)号:CN117252234B

    公开(公告)日:2024-03-01

    申请号:CN202311531148.3

    申请日:2023-11-16

    Abstract: 本说明书公开了一种基于非合作博弈的策略生成方法及装置,通过构建目标用户对应的图数据,针对每个智能体,根据该智能体的被观测概率以及背叛参数,确定该智能体的背叛行为策略。根据各邻居智能体的背叛行为策略和各邻居智能体的被观测概率,通过该智能体的惩罚参数,确定该智能体分别对各邻居智能体的第一惩罚行为策略。进而参考各智能体在背叛行为策略和第一惩罚行为策略的影响下,更新该智能体的背叛参数和惩罚参数,用于确定各智能体的行为策略。从上述方法可以看出,通过构建目标用户对应的图数据,参考了与目标用户相关用户的行为策略的影响,以及实时更新目标用户的惩罚参数和背叛参数,得到的行为策略,更准确、实效性强。(56)对比文件Marco Casari等.Decentralizedmanagement of common property resources:experiments with a centuries-oldinstitution.Journal of Economic Behavior& Organization.2003,全文.裴华艳;闫光辉;王焕民.基于行为惩罚的合作演化研究.兰州交通大学学报.2020,(02),全文.王浩云;张顺颐;赵振东;马燕玲.基于不完全信息博弈的P2P网络节点行为策略模型.应用科学学报.2008,(05),全文.于建业;王元卓;靳小龙;程学旗.基于社交演化博弈的社交网络用户信息分享行为演化分析.电子学报.2018,(01),全文.谢逢洁;武小平;崔文田;陈子凤.博弈参与水平对无标度网络上合作行为演化的影响.中国管理科学.2017,(05),全文.

    一种基于非合作博弈的策略生成方法及装置

    公开(公告)号:CN117252234A

    公开(公告)日:2023-12-19

    申请号:CN202311531148.3

    申请日:2023-11-16

    Abstract: 本说明书公开了一种基于非合作博弈的策略生成方法及装置,通过构建目标用户对应的图数据,针对每个智能体,根据该智能体的被观测概率以及背叛参数,确定该智能体的背叛行为策略。根据各邻居智能体的背叛行为策略和各邻居智能体的被观测概率,通过该智能体的惩罚参数,确定该智能体分别对各邻居智能体的第一惩罚行为策略。进而参考各智能体在背叛行为策略和第一惩罚行为策略的影响下,更新该智能体的背叛参数和惩罚参数,用于确定各智能体的行为策略。从上述方法可以看出,通过构建目标用户对应的图数据,参考了与目标用户相关用户的行为策略的影响,以及实时更新目标用户的惩罚参数和背叛参数,得到的行为策略,更准确、实效性强。

Patent Agency Ranking