-
公开(公告)号:CN115688858B
公开(公告)日:2024-02-09
申请号:CN202211285500.5
申请日:2022-10-20
Applicant: 哈尔滨工业大学(深圳)
IPC: G06N3/04 , G06N3/08 , G06F18/214
Abstract: 本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端,方法包括,获取智能体的当前环境状态信息,将当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据预测信息控制智能体执行相应动作,采集任务完成情况信息和当前动作的状态信息;根据动作的状态信息计算单次奖励值,根据任务完成情况信息计算任务奖励值;根据单次奖励值及任务奖励值训练预设预测网络模型,将任务奖励值和每局若干单次奖励值相加,得到总奖励值,当总奖励值大于阈值时,完成对预设预测网络模型的训练并将输出的策略返回,上述方法降低了训练难度、提高了训练效率,无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。
-
公开(公告)号:CN116028817A
公开(公告)日:2023-04-28
申请号:CN202310078101.X
申请日:2023-01-13
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F18/214 , G06N3/04 , G06N3/092 , G06N7/01
Abstract: 本发明公开一种基于单估值网络的CFR策略求解方法及相关设备,所述方法包括:初始化每个博弈者的初始优势值网络;利用外部采样方法遍历博弈树,并收集得到累积遗憾值后,计算出优势值;利用所述优势值训练多个初始优势值网络,并将得到的多个经过训练后的优势值网络保存在优势值网络缓冲区中;在所述优势值网络缓冲区中选择一个经过训练后的优势值网络进行优势值网络采样操作,生成综合策略。本发明通过利用优势值训练初始优势值网络,将经过训练后的优势值网络保存在优势值网络缓冲区中,并对保存的经过训练后的优势值网络进行优势值网络采样操作,直接生成综合策略,不仅减少了存储和计算资源,提高了综合策略的质量和优越性。
-
公开(公告)号:CN114844621B
公开(公告)日:2023-04-07
申请号:CN202210365746.7
申请日:2022-04-08
Applicant: 哈尔滨工业大学(深圳) , 暨南大学
Abstract: 本发明公开了一种基于多密钥全同态加密的多用户隐私保护机器学习方法及装置,方法包括:由公共字符串CRS进行多密钥全同态加密算法的初始化、生成安全参数λ及生成公共参数集mkparams;服务器S整合各个数据提供方上传的单密钥密文数据Encski(di)得到多密钥密文数据集Encsk(D);服务器S在多密钥密文数据集Encsk(D)的基础上将普通机器学习算法中的线性运算替换为全同态加法和全同态乘法,对多密钥密文数据集Encsk(D)进行机器学习建模训练;服务器S将多密钥加密的模型密文Encsk(model)下发给各个数据提供方DPi和解密方DE;解密多密钥模型密文Encsk(model),从而得到由各个数据提供方DPi的数据D训练得到的模型model=Decsk(Encsk(model))。本发明在保证较高安全性的同时,以较低通信代价和较少交互次数完成隐私计算任务。
-
公开(公告)号:CN113763539B
公开(公告)日:2023-04-07
申请号:CN202111054666.1
申请日:2021-09-09
Applicant: 哈尔滨工业大学(深圳)
IPC: G06T17/00 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 本发明公开了一种基于图像和三维输入的隐式函数三维重建方法,其包括:通过三维输入预测网络处理三维输入以生成三维点的第一空间占用概率;通过图像预测网络处理输入图像以生成三维点的第二空间占用概率;所述的第一空间占用概率和第二空间占用概率被用来生成三维重建模型作为输出。本发明具有能准确提取二维图像包含的细节信息又能表达三维输入表示的结构形状信息而重建高准确度的三维模型的优点。
-
公开(公告)号:CN114048833B
公开(公告)日:2023-01-17
申请号:CN202111303688.7
申请日:2021-11-05
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明公开了一种基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置,本发明在传统的神经网络虚拟自我对局NFSP算法的基础上引入了优先级经验采样机制和优先级加权的程度控制机制,根据经验片段的学习价值设置优先级来过滤记忆库中的经验,对于优先经验的存储和采样,采用求和树的数据结构,以时间复杂度实现优先级经验采样,降低NFSP训练过程中与环境交互的代价,加快求解速度;同时使用马尔科夫决策过程对扩展式博弈进行建模,将多人博弈转化成单个智能体与环境的交互过程,可看作单个智能体和环境的二人博弈,将NFSP的应用范围拓展至多人博弈,增强算法的泛用性。
-
公开(公告)号:CN115470927A
公开(公告)日:2022-12-13
申请号:CN202210987308.4
申请日:2022-08-17
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明公开了一种替代模型自动提取方法、终端及存储介质,方法包括:获取目标模型面向的任务及任务数据信息,根据目标模型面向的任务确定替代模型的架构,并根据模型提取的特点及为改进提取流程设置模型提取框架;对收集的目标模型的任务数据进行降维处理,并对降维后的数据进行筛选,得到替代模型的训练数据集;根据预设指标度量替代模型的分类信心,根据分类信心对训练数据集进行分类,得到查询样本数据;通过模型提取框架中的监督学习算法和一致性正则化算法训练替代模型,得到训练后的替代模型;本发明可以获得目标模型决策能力,使得替代模型尽可能接近甚至超越目标模型在测试数据集上的表现,从而使得替代模型具有更令人满意的可用性。
-
公开(公告)号:CN113947022B
公开(公告)日:2022-07-12
申请号:CN202111220714.X
申请日:2021-10-20
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F30/27 , G06V20/40 , G06K9/62 , G06V10/774 , G06V10/764 , G06N20/00
Abstract: 本发明公开了一种基于模型的近端策略优化方法,包括步骤:获取模拟环境,并确定所述模拟环境对应的环境模型和策略网络;基于所述策略网络与所述模拟环境,确定状态数据;其中,所述状态数据包括所述模拟环境的视频序列帧;基于所述模拟环境的视频序列帧训练所述环境模型,得到已训练的环境模型输出的预测图像;基于所述预测图像,更新所述状态数据,得到更新的状态数据;基于所述更新的状态数据,更新所述策略网络,得到更新的策略网络。融合基于模型的深度强化学习算法,提出了基于模型的近端策略优化框架,较好的解决了非完全信息博弈环境下采样利用率低的问题,在提高采样率的同时提升训练速度。
-
公开(公告)号:CN109284411B
公开(公告)日:2022-03-18
申请号:CN201810402753.3
申请日:2018-04-28
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F16/53 , G06K9/62 , G06V10/74 , G06V10/764
Abstract: 本发明涉及图像数据处理领域,特别涉及一种基于有监督超图离散化图像二值编码方法。该方法包括以下步骤:S1.假设一个由n幅图像组成训练集,将训练集所有样本通过学习哈希函数映射到汉明空间的二值化哈希码;S2.定义一个线性多分类模型,采用优化函数对离散化变量进行优化,得出第一目标函数;S3.采用超图对数据哈希码之间的距离度量一致性进行约束,得出第二目标函数;S4.整合第一目标函数和第二目标函数,得到完整的目标函数,采用“位循环坐标下降方法”学习哈希码矩阵,并通过迭代运算优化目标函数。本发明既可以保持数据在原始空间相似性,又能提高检索的准确率。
-
公开(公告)号:CN114139637A
公开(公告)日:2022-03-04
申请号:CN202111470623.1
申请日:2021-12-03
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本申请公开了一种多智能体信息融合方法、装置、电子设备及可读存储介质。其中,方法包括构建操作预测网络模型和门控注意力机制模型,门控注意力机制模型根据不同来源信息以交互过程中学习的比例进行融合,且各智能体基于自身数据和通信信息融合结果共同确定是否接收通信信息融合结果。将多智能体应用模拟环境的状态信息输入至操作预测网络模型,得到各智能体的预测动作;根据多智能体应用模拟环境基于各智能体的预测动作信息输出的各预测动作得分和下一时刻的状态信息、每个智能体的价值评估信息,基于门控注意力机制模型的强化学习算法更新操作预测网络模型,循环训练操作预测网络模型直至收敛。本申请提升了多智能体信息融合效果。
-
公开(公告)号:CN114048834A
公开(公告)日:2022-02-15
申请号:CN202111303694.2
申请日:2021-11-05
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明公开了一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置,包括下述步骤:获取非完全博弈环境,确定任务目标;构建第一神经网络和基于未来值预测的强化学习方法;构建事后经验回顾池;对第一神经网络进行训练,直至第一神经网络收敛;构建渐进式神经网络,实现网络模型的渐进式扩展;选择下一个任务作为任务目标,利用基于未来值预测的强化学习方法持续训练,直至所有的任务都训练完成。本发明通过使用非完全信息博弈场景中丰富的智能体状态变化作为监督信号,解决该环境下的奖励稀疏问题,同时引入持续学习框架渐进式神经网络对未来值预测网络结构进行动态扩展,解决了在该环境下的多任务场景中的灾难性遗忘的问题。
-
-
-
-
-
-
-
-
-