一种策略生成方法、装置及设备
    1.
    发明公开

    公开(公告)号:CN114511086A

    公开(公告)日:2022-05-17

    申请号:CN202210138348.1

    申请日:2022-02-15

    Abstract: 本发明公开了一种策略生成方法、装置及设备,其中,所述方法包括:选择预设的主策略风格对应的虚拟对象与对战方对战;预测所述对战方的对战策略风格,其中,所述对战策略风格为预设的至少三种策略风格中的一种,所述至少三种策略风格包括所述主策略风格和至少两种非主策略风格,所述至少三种策略风格两两之间存在克制关系;选择策略风格克制所述对战策略风格的虚拟对象与对战方对战;若未触发博弈结束规则,重复执行所述预测对战方的对战策略风格,选择策略风格克制所述对战策略风格的虚拟对象与对战方对战的步骤;若触发预设博弈结束规则,则博弈结束。通过上述方式,本发明增加了博弈的胜率。

    文档图像底纹去除方法及系统

    公开(公告)号:CN111583156A

    公开(公告)日:2020-08-25

    申请号:CN202010403455.3

    申请日:2020-05-13

    Abstract: 本发明涉及一种文档图像底纹去除方法及系统,所述去除方法包括:对原始文档图像进行二值化处理,得到二值化图像;提取二值化图像的边缘,得到边缘图像;融合边缘图像的设定距离的边缘,得到融合图像;根据融合图像及边缘图像,得到底纹纹理图;将原始文档图像等分成多个图像块;从图像块的各像素点中提取对应在所述底纹纹理图中被标记为底纹像素点的第一像素点;计算各第一像素点的像素值的均值,得到图像块的纹理均值;计算像素点的像素值与纹理均值之间的距离值;当距离值小于或等于颜色距离阈值,则将像素点对应的二值化图像中的像素点置零,得到二值化结果图像,在去除底纹的同时能有效的保留文档中被底纹干扰的文本信息。

    基于大语言模型的行动方案生成模型的训练方法及装置

    公开(公告)号:CN118152528B

    公开(公告)日:2024-12-06

    申请号:CN202410222968.2

    申请日:2024-02-28

    Abstract: 本发明提供一种基于大语言模型的行动方案生成模型的训练方法及装置,其中方法包括:获取行动方案样本的背景信息,以及初始大语言模型;基于背景信息,以及通用大语言模型,构建行动方案样本的想定数据集;基于想定数据集,以及通用大语言模型,构建行动方案样本的问题数据集;基于问题数据集,以及通用大语言模型,构建行动方案样本的方案数据集;基于问题数据集以及方案数据集,对初始大语言模型进行训练,得到行动方案生成模型。本发明提供的方法,基于连续多阶段的数据集构建,提升了训练数据的全面性、准确性、可定制性。并通过构建得到的数据集对初始大语言模型进行微调训练,提升行动方案生成模型的准确性、可行性、实用性。

    状态值预测模型的训练方法及装置

    公开(公告)号:CN116468069A

    公开(公告)日:2023-07-21

    申请号:CN202310501183.4

    申请日:2023-05-06

    Abstract: 本发明公开了一种状态值预测模型的训练方法及装置。其中,该方法包括:根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据指数变换基底对第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据最大量级对第一网络进行更新,以得到第二网络;根据第二输入状态值对第二网络进行训练。本发明解决了由于相关技术中各个状态值的量级相差较大,无法取得理想的训练效果的技术问题。

    文档图像的信息提取方法及系统

    公开(公告)号:CN111611933B

    公开(公告)日:2023-07-14

    申请号:CN202010441086.7

    申请日:2020-05-22

    Abstract: 本发明涉及一种文档图像的信息提取方法及系统,所述提取方法包括:基于全卷积神经网络,根据待识别文档图像,得到字符感知响应图;采用分水岭算法,对字符感知响应图进行分割,得到多个分割图像;通过连通域提取方法,对各分割图像进行字符提取,得到各分割图像中的字符;基于深度神经网络的字符识别模型,对各字符进行识别,确定各字符的位置信息;根据位置信息,对字符进行合并,得到待识别图像的识别信息。本发明通过全卷积神经网络、分水岭算法、连通域提取方法,确定待识别文档图像的各分割图像中的字符,并基于深度神经网络的字符识别模型,确定各字符的位置信息;进而根据位置信息对字符进行合并,可准确得到待识别图像的识别信息。

    一种应用于兵棋推演的策略模型训练方法、装置及设备

    公开(公告)号:CN115577874A

    公开(公告)日:2023-01-06

    申请号:CN202211179903.1

    申请日:2022-09-27

    Abstract: 本发明实施例涉及人工智能领域,公开了一种应用于兵棋推演的策略模型训练方法、装置及设备。本发明实施例涉及的应用于兵棋推演的策略模型训练方法包括:分别获取第一策略模型和第二策略模型,第一策略模型来自第一种群池,第二策略模型来自第二种群池;调用第一策略模型与第二策略模型进行对战,得到第一对战结果,第一对战结果用于表征相应第一策略模型与相应第二策略模型的对战胜利的可能性;若第一对战结果大于第一预设阈值,则更新第一种群池中第一策略模型的被选概率。这样,双方策略模型对应的种群池随着训练不断优化更新,满足了双方策略模型对训练样本的数量以及多样性需求,以及避免了策略模型学习策略单一的情况。

    一种多智能体学习方法、装置及设备

    公开(公告)号:CN114611664A

    公开(公告)日:2022-06-10

    申请号:CN202210171628.2

    申请日:2022-02-24

    Abstract: 本申请实施例涉及人工智能领域,公开了一种多智能体学习方法、装置及设备。本申请实施例涉及的多智能体学习方法包括:部署至少两个执行网络用于为智能体提供动作执行环境,每个执行网络对应一个智能体,基于智能体当前的状态特征调用执行网络得到对应的动作结果,并且,调用所有智能体的动作结果并与环境进行交互训练,检测交互训练的次数是否等于预设阈值,当各个智能体的交互训练次数等于预设阈值时,基于交互训练产生的训练结果对全部所述智能体进行训练。这样,在学习过程中,随着智能体数量增加,只需对分布执行网络进行扩展,智能体动作空间不会变的复杂,此降低了每个智能体动作空间以及决策空间的设计难度,提升了智能体的学习效率。

    一种策略模型训练方法、装置及设备

    公开(公告)号:CN114330754A

    公开(公告)日:2022-04-12

    申请号:CN202210206944.9

    申请日:2022-03-04

    Abstract: 本申请实施例涉及人工智能领域,公开了一种策略模型训练方法、装置及设备。本申请实施例涉及的策略模型训练方法包括:分别获取第一策略模型以及第二策略模型对应的策略,并且,在对战学习过程中获取对战双方的对战结果,依照对战结果进行各自优势策略挑选,并将挑选出的优势策略用于后续对应策略群体的进化,以此往复循环,使对战双方策略模型对应的策略群不断有优势策略注入,这样不仅可以将己方智能体得到进化策略训练,同时也可以使对战方智能体得到进化策略训练,提升了博弈学习网络中策略模型的进化程度上限,使策略模型对策略多样的博弈场景适应性更强。

    一种虚拟对象的动作生成方法、装置及设备

    公开(公告)号:CN114053712A

    公开(公告)日:2022-02-18

    申请号:CN202210048175.4

    申请日:2022-01-17

    Abstract: 本发明公开了一种虚拟对象的动作生成方法、装置及设备,其中,所述方法包括:获取多个虚拟对象的特征信息,所述多个虚拟对象属于同一组;将所述多个虚拟对象的特征信息映射成一个总虚拟对象的特征信息;根据所述总虚拟对象的特征信息,获得所述多个虚拟对象中每个虚拟对象的第一策略动作;根据所述每个虚拟对象的第一策略动作,生成相应虚拟对象的第二策略动作;控制所述每个虚拟对象执行相应的所述第二策略动作。通过上述方式,本发明可以提高训练效率、简化操作流程,同时还可以实现智能控制多个虚拟对象动作的协同性,从而使一组的多个虚拟对象在对抗对手的过程中表现出动作之间的协同性,基于虚拟场景中的预设目标不断优化该多个虚拟对象的博弈结果。

    路径规划模型的训练、路径规划方法、装置及电子设备

    公开(公告)号:CN113467487B

    公开(公告)日:2021-11-23

    申请号:CN202111035827.2

    申请日:2021-09-06

    Abstract: 本发明实施例涉及强化学习技术领域,具体涉及路径规划模型的训练、路径规划方法、装置及电子设备,其中,所述训练方法包括:获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数;将当前时刻的环境状态以及剩余决策次数输入路径规划模型,并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;根据当前时刻的执行动作以及损失计算参数进行损失函数的计算,并基于计算结果更新路径规划模型的参数,以确定目标路径规划模型。将决策次数作为约束条件,使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。

Patent Agency Ranking