一种数据处理方法及相关装置
摘要:
本申请公开一种数据处理方法及相关装置,用于人工智能领域。方法包括:通过第一样本阵容对局第二样本阵容的多个样本游戏状态和对应的多个正负奖励训练强化学习模型得到输出概率模型;从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中,获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率,M×N个目标游戏状态对应预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态。通过调整M×N个目标输出概率得到调整后的M×N个目标输出概率;通过调整后的M×N个目标输出概率与预设概率之间的大小关系,确定在预设时间的输出策略。
公开/授权文献
0/0