-
公开(公告)号:CN113554545A
公开(公告)日:2021-10-26
申请号:CN202110858190.0
申请日:2021-07-28
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明涉及一种用于图像处理模型版权保护的模型水印方法,包括:获取一个训练完成的图像处理模型M(θ;·);在原始训练数据(X,Y)的GT图像集Y中嵌入一个不可见的水印w得到嵌入水印后的GT图像集Yw;然后在嵌入水印后的训练数据(X,Yw)上训练该模型来改变模型的参数为其嵌入水印,得到嵌入水印后的模型M(θw;·);方法还包括所有权验证,通过验证从触发图像中水印提取的成功率即可实现对经修改的模型或可疑模型SM的版权验证。能够实现对图像处理模型的版权保护,模型的保真性、唯一性和鲁棒性优异,具有很强的通用性,可用于任何输出是图像的模型的版权保护。
-
公开(公告)号:CN110404264A
公开(公告)日:2019-11-05
申请号:CN201910676407.9
申请日:2019-07-25
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明提供了一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质,该方法包括:针对二人博弈情况,使用多类别逻辑回归和蓄水池抽样实现了平均策略的生成,使用DQN和环形缓冲记忆实现了最优反应策略的生成;针对多人博弈情况,使用多智能体近端策略优化算法MAPPO实现最优反应策略,同时使用多智能体NFSP调节智能体的训练。本发明的有益效果是:本发明引入了虚拟自我对局的算法框架,将德州扑克策略优化过程分为最优反应策略学习和平均策略学习两个部分,并分别用模仿学习和深度强化学习来实现,设计出了更为通用的多智能体最优策略学习方法。
-
公开(公告)号:CN106469317A
公开(公告)日:2017-03-01
申请号:CN201610835289.8
申请日:2016-09-20
Applicant: 哈尔滨工业大学深圳研究生院
CPC classification number: G06N5/042 , A63F1/02 , A63F2001/005 , G06K9/6223 , G06K9/6267 , G06N3/04
Abstract: 本发明提供了一种基于非完备信息博弈中进行对手建模的方法,步骤1:德州扑克中的手牌评估;步骤2:非完备信息博弈中的对手建模;步骤3:扑克博弈系统的实现。本发明以德州扑克作为具体研究对象,通过将对手建模方法与手牌评估算法相结合实现了一个拥有较高智能水平的扑克博弈程序。
-
公开(公告)号:CN102902538B
公开(公告)日:2015-11-25
申请号:CN201210360628.3
申请日:2012-09-21
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明提供了一种移动互联网智能终端应用中间件安全开发方法,包括:A:建模,具体如下:A1:利用多模式匹配算法确定程序的安全等级以及筛选出包含敏感API的子函数;A2:对子函数进行分析;A3:构造子函数的系统迁移图,完成了系统的建模;B:规范,使用规范语言CTL来描述程序的恶意行为,构造CTL公式的语法树,对CTL公式进行翻译、解析、EF替换、变量绑定;C:验证,利用非递归的标记算法来实现模型检验。本发明弥补了传统的如Android系统在权限赋予方面的缺陷,能够有效的保护用户隐私数据的安全。能够做到真正的主动防御,对所有的隐私数据的访问都需要通过用户的选择。
-
公开(公告)号:CN114897267B
公开(公告)日:2024-02-27
申请号:CN202210665590.4
申请日:2022-06-14
Applicant: 哈尔滨工业大学(深圳) , 中国电子科技集团公司第五十四研究所
IPC: G06Q10/0631
Abstract: 本发明公开了面向多对多智能体协同作战场景的火力分配方法及系统,所述方法包括:确定红蓝对抗问题想定,所述红蓝对抗问题想定包括红蓝对抗单元的种类、数量、射击间隔及对抗问题、红蓝双方的目标任务和胜负判断准则;基于语义的想定建模,将所述红蓝对抗问题想定进行结构化抽象,并将博弈对抗问题的图像信息转化为语义信息;基于语义态势认知模块计算火力分配方案,并将所有我方单位指定打击对象;构建语义体系,基于向量化火力打击结果生成火力打击对象决策语义,并执行当前决策指令。本发明尽可能地将火力均匀分配到各个敌方上,使得每一个火力都最大化地得到利用。
-
公开(公告)号:CN115688858B
公开(公告)日:2024-02-09
申请号:CN202211285500.5
申请日:2022-10-20
Applicant: 哈尔滨工业大学(深圳)
IPC: G06N3/04 , G06N3/08 , G06F18/214
Abstract: 本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端,方法包括,获取智能体的当前环境状态信息,将当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据预测信息控制智能体执行相应动作,采集任务完成情况信息和当前动作的状态信息;根据动作的状态信息计算单次奖励值,根据任务完成情况信息计算任务奖励值;根据单次奖励值及任务奖励值训练预设预测网络模型,将任务奖励值和每局若干单次奖励值相加,得到总奖励值,当总奖励值大于阈值时,完成对预设预测网络模型的训练并将输出的策略返回,上述方法降低了训练难度、提高了训练效率,无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。
-
公开(公告)号:CN116028817A
公开(公告)日:2023-04-28
申请号:CN202310078101.X
申请日:2023-01-13
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F18/214 , G06N3/04 , G06N3/092 , G06N7/01
Abstract: 本发明公开一种基于单估值网络的CFR策略求解方法及相关设备,所述方法包括:初始化每个博弈者的初始优势值网络;利用外部采样方法遍历博弈树,并收集得到累积遗憾值后,计算出优势值;利用所述优势值训练多个初始优势值网络,并将得到的多个经过训练后的优势值网络保存在优势值网络缓冲区中;在所述优势值网络缓冲区中选择一个经过训练后的优势值网络进行优势值网络采样操作,生成综合策略。本发明通过利用优势值训练初始优势值网络,将经过训练后的优势值网络保存在优势值网络缓冲区中,并对保存的经过训练后的优势值网络进行优势值网络采样操作,直接生成综合策略,不仅减少了存储和计算资源,提高了综合策略的质量和优越性。
-
公开(公告)号:CN113763539B
公开(公告)日:2023-04-07
申请号:CN202111054666.1
申请日:2021-09-09
Applicant: 哈尔滨工业大学(深圳)
IPC: G06T17/00 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 本发明公开了一种基于图像和三维输入的隐式函数三维重建方法,其包括:通过三维输入预测网络处理三维输入以生成三维点的第一空间占用概率;通过图像预测网络处理输入图像以生成三维点的第二空间占用概率;所述的第一空间占用概率和第二空间占用概率被用来生成三维重建模型作为输出。本发明具有能准确提取二维图像包含的细节信息又能表达三维输入表示的结构形状信息而重建高准确度的三维模型的优点。
-
公开(公告)号:CN114048833B
公开(公告)日:2023-01-17
申请号:CN202111303688.7
申请日:2021-11-05
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明公开了一种基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置,本发明在传统的神经网络虚拟自我对局NFSP算法的基础上引入了优先级经验采样机制和优先级加权的程度控制机制,根据经验片段的学习价值设置优先级来过滤记忆库中的经验,对于优先经验的存储和采样,采用求和树的数据结构,以时间复杂度实现优先级经验采样,降低NFSP训练过程中与环境交互的代价,加快求解速度;同时使用马尔科夫决策过程对扩展式博弈进行建模,将多人博弈转化成单个智能体与环境的交互过程,可看作单个智能体和环境的二人博弈,将NFSP的应用范围拓展至多人博弈,增强算法的泛用性。
-
公开(公告)号:CN113947022B
公开(公告)日:2022-07-12
申请号:CN202111220714.X
申请日:2021-10-20
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F30/27 , G06V20/40 , G06K9/62 , G06V10/774 , G06V10/764 , G06N20/00
Abstract: 本发明公开了一种基于模型的近端策略优化方法,包括步骤:获取模拟环境,并确定所述模拟环境对应的环境模型和策略网络;基于所述策略网络与所述模拟环境,确定状态数据;其中,所述状态数据包括所述模拟环境的视频序列帧;基于所述模拟环境的视频序列帧训练所述环境模型,得到已训练的环境模型输出的预测图像;基于所述预测图像,更新所述状态数据,得到更新的状态数据;基于所述更新的状态数据,更新所述策略网络,得到更新的策略网络。融合基于模型的深度强化学习算法,提出了基于模型的近端策略优化框架,较好的解决了非完全信息博弈环境下采样利用率低的问题,在提高采样率的同时提升训练速度。
-
-
-
-
-
-
-
-
-