-
公开(公告)号:CN117892823B
公开(公告)日:2025-03-25
申请号:CN202311830060.1
申请日:2023-12-27
Applicant: 中国科学院自动化研究所
IPC: G06N5/04 , A63F13/822 , A63F3/02 , G06F18/23 , G10L25/51
Abstract: 本发明涉及一种兵棋数据的标注方法、系统、存储介质和电子设备,包括:获取推演战报数据中记录的意图描述信息,基于意图描述信息进行标签标注;采集实时推演数据以及语音数据,基于标签识别策略,对语音数据进行标签标注;获取标签对应的语音数据的起始时间及结束时间,基于起始时间至结束时间之间的语音数据,获取该语音数据对应的实时推演数据中的起始帧及结束帧,将起始帧及结束帧之间的实时推演数据标注为该标签;回放标注的实时推演数据,接收依据回放的标注的实时推演数据及在回放的界面展示的标签识别策略输入的标签信息,对标注的实时推演数据进行再标注。可以提升标签的标注效率及标注准确度。
-
公开(公告)号:CN118045360B
公开(公告)日:2024-11-29
申请号:CN202410302417.7
申请日:2024-03-15
Applicant: 中国科学院自动化研究所
IPC: A63F13/60 , G06N3/0464 , G06N3/092
Abstract: 本公开提供了一种兵棋智能体的训练方法、预测方法及相应系统。所述兵棋智能体的训练方法包括:基于兵棋对抗环境,生成专家示范数据集;基于所述专家示范数据集,对所述兵棋智能体中的用于为我方各算子选择机动方位的多任务网络进行模仿学习训练,以得到初步训练好的多任务网络;基于所述兵棋对抗环境,对初步训练好的多任务网络进行强化学习训练,得到优化后的多任务网络;其中,所述专家示范数据集包括:所述多任务网络决策所需的态势特征、我方的N个算子的机动方位标签,N为大于1的整数。根据本公开,能够实现具有更高性能的兵棋智能体的高效获取。
-
公开(公告)号:CN118051780B
公开(公告)日:2024-07-16
申请号:CN202410444184.4
申请日:2024-04-12
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06N3/006
Abstract: 本公开提供了一种智能体的训练方法、交互方法及相应系统。适用于人机交互场景的智能体的训练方法包括:从所述智能体的策略空间采样多个策略作为本轮训练的测试策略;在人机交互任务环境中对各测试策略进行测试,得到所述各测试策略在m个测试任务上的测试结果;基于所述测试结果,计算用于评估所述各测试策略在各测试任务中的表现的客观评估数据;向用户输出所述测试结果,并接收所述用户对所述各测试策略在所述各测试任务中的表现的主观评估数据;基于所述客观评估数据和所述主观评估数据,更新所述智能体。根据本公开的示例性实施例,综合考虑人类的主观感受和智能体的客观能力完成智能体评估及训练,使训练得到的智能体能力强且被人类认可。
-
公开(公告)号:CN118045360A
公开(公告)日:2024-05-17
申请号:CN202410302417.7
申请日:2024-03-15
Applicant: 中国科学院自动化研究所
IPC: A63F13/60 , G06N3/0464 , G06N3/092
Abstract: 本公开提供了一种兵棋智能体的训练方法、预测方法及相应系统。所述兵棋智能体的训练方法包括:基于兵棋对抗环境,生成专家示范数据集;基于所述专家示范数据集,对所述兵棋智能体中的用于为我方各算子选择机动方位的多任务网络进行模仿学习训练,以得到初步训练好的多任务网络;基于所述兵棋对抗环境,对初步训练好的多任务网络进行强化学习训练,得到优化后的多任务网络;其中,所述专家示范数据集包括:所述多任务网络决策所需的态势特征、我方的N个算子的机动方位标签,N为大于1的整数。根据本公开,能够实现具有更高性能的兵棋智能体的高效获取。
-
公开(公告)号:CN117892823A
公开(公告)日:2024-04-16
申请号:CN202311830060.1
申请日:2023-12-27
Applicant: 中国科学院自动化研究所
IPC: G06N5/04 , A63F13/822 , A63F3/02 , G06F18/23 , G10L25/51
Abstract: 本发明涉及一种兵棋数据的标注方法、系统、存储介质和电子设备,包括:获取推演战报数据中记录的意图描述信息,基于意图描述信息进行标签标注;采集实时推演数据以及语音数据,基于标签识别策略,对语音数据进行标签标注;获取标签对应的语音数据的起始时间及结束时间,基于起始时间至结束时间之间的语音数据,获取该语音数据对应的实时推演数据中的起始帧及结束帧,将起始帧及结束帧之间的实时推演数据标注为该标签;回放标注的实时推演数据,接收依据回放的标注的实时推演数据及在回放的界面展示的标签识别策略输入的标签信息,对标注的实时推演数据进行再标注。可以提升标签的标注效率及标注准确度。
-
公开(公告)号:CN118051780A
公开(公告)日:2024-05-17
申请号:CN202410444184.4
申请日:2024-04-12
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06N3/006
Abstract: 本公开提供了一种智能体的训练方法、交互方法及相应系统。适用于人机交互场景的智能体的训练方法包括:从所述智能体的策略空间采样多个策略作为本轮训练的测试策略;在人机交互任务环境中对各测试策略进行测试,得到所述各测试策略在m个测试任务上的测试结果;基于所述测试结果,计算用于评估所述各测试策略在各测试任务中的表现的客观评估数据;向用户输出所述测试结果,并接收所述用户对所述各测试策略在所述各测试任务中的表现的主观评估数据;基于所述客观评估数据和所述主观评估数据,更新所述智能体。根据本公开的示例性实施例,综合考虑人类的主观感受和智能体的客观能力完成智能体评估及训练,使训练得到的智能体能力强且被人类认可。
-
-
-
-
-