移动互联网智能终端应用中间件安全开发方法

    公开(公告)号:CN102902538B

    公开(公告)日:2015-11-25

    申请号:CN201210360628.3

    申请日:2012-09-21

    Abstract: 本发明提供了一种移动互联网智能终端应用中间件安全开发方法,包括:A:建模,具体如下:A1:利用多模式匹配算法确定程序的安全等级以及筛选出包含敏感API的子函数;A2:对子函数进行分析;A3:构造子函数的系统迁移图,完成了系统的建模;B:规范,使用规范语言CTL来描述程序的恶意行为,构造CTL公式的语法树,对CTL公式进行翻译、解析、EF替换、变量绑定;C:验证,利用非递归的标记算法来实现模型检验。本发明弥补了传统的如Android系统在权限赋予方面的缺陷,能够有效的保护用户隐私数据的安全。能够做到真正的主动防御,对所有的隐私数据的访问都需要通过用户的选择。

    一种细粒度专家行为模仿学习方法、装置、介质及终端

    公开(公告)号:CN115688858B

    公开(公告)日:2024-02-09

    申请号:CN202211285500.5

    申请日:2022-10-20

    Abstract: 本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端,方法包括,获取智能体的当前环境状态信息,将当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据预测信息控制智能体执行相应动作,采集任务完成情况信息和当前动作的状态信息;根据动作的状态信息计算单次奖励值,根据任务完成情况信息计算任务奖励值;根据单次奖励值及任务奖励值训练预设预测网络模型,将任务奖励值和每局若干单次奖励值相加,得到总奖励值,当总奖励值大于阈值时,完成对预设预测网络模型的训练并将输出的策略返回,上述方法降低了训练难度、提高了训练效率,无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。

    一种基于单估值网络的CFR策略求解方法及相关设备

    公开(公告)号:CN116028817A

    公开(公告)日:2023-04-28

    申请号:CN202310078101.X

    申请日:2023-01-13

    Abstract: 本发明公开一种基于单估值网络的CFR策略求解方法及相关设备,所述方法包括:初始化每个博弈者的初始优势值网络;利用外部采样方法遍历博弈树,并收集得到累积遗憾值后,计算出优势值;利用所述优势值训练多个初始优势值网络,并将得到的多个经过训练后的优势值网络保存在优势值网络缓冲区中;在所述优势值网络缓冲区中选择一个经过训练后的优势值网络进行优势值网络采样操作,生成综合策略。本发明通过利用优势值训练初始优势值网络,将经过训练后的优势值网络保存在优势值网络缓冲区中,并对保存的经过训练后的优势值网络进行优势值网络采样操作,直接生成综合策略,不仅减少了存储和计算资源,提高了综合策略的质量和优越性。

    一种基于模型的近端策略优化方法

    公开(公告)号:CN113947022B

    公开(公告)日:2022-07-12

    申请号:CN202111220714.X

    申请日:2021-10-20

    Abstract: 本发明公开了一种基于模型的近端策略优化方法,包括步骤:获取模拟环境,并确定所述模拟环境对应的环境模型和策略网络;基于所述策略网络与所述模拟环境,确定状态数据;其中,所述状态数据包括所述模拟环境的视频序列帧;基于所述模拟环境的视频序列帧训练所述环境模型,得到已训练的环境模型输出的预测图像;基于所述预测图像,更新所述状态数据,得到更新的状态数据;基于所述更新的状态数据,更新所述策略网络,得到更新的策略网络。融合基于模型的深度强化学习算法,提出了基于模型的近端策略优化框架,较好的解决了非完全信息博弈环境下采样利用率低的问题,在提高采样率的同时提升训练速度。

Patent Agency Ranking