-
公开(公告)号:CN120031134A
公开(公告)日:2025-05-23
申请号:CN202510146643.5
申请日:2025-02-10
Applicant: 上海交通大学
Abstract: 本申请提供一种图形界面智能体的训练方法、设备及存储介质,该方法包括:基于动态模型推断第一无标签图形界面交互轨迹中的初始状态和动作所对应的转移状态,以作为第一无标签图形界面交互轨迹的监督信号;基于逆动态模型推断第二无标签图形界面交互轨迹中的状态转移所对应的动作,以作为第二无标签图形界面交互轨迹的监督信号;基于具有监督信号的第一无标签图形界面交互轨迹和具有监督信号的第二无标签图形界面交互轨迹,对图形界面智能体进行训练。由此,通过自动从无标注数据中提取监督信号,充分利用无标注数据中蕴含的丰富信息,降低了数据标注的经济与时间成本,并提升了GUI智能体在多步任务规划和界面理解等关键技术指标上的性能。
-
公开(公告)号:CN120031099A
公开(公告)日:2025-05-23
申请号:CN202510146642.0
申请日:2025-02-10
Applicant: 上海交通大学
Abstract: 本申请提供一种图形界面智能体的训练方法、设备及存储介质,该方法包括:获取图形界面交互任务样本,该图形界面交互任务样本包含图形界面交互任务轨迹和相应的交互任务完成结果;针对图形界面交互任务轨迹中的各个图形界面操作步骤,确定图形界面操作步骤所对应的任务预测进度,并根据任务预测进度和交互任务完成结果计算相应的进度奖励值;根据各个图形界面操作步骤所对应的进度奖励值,对图形界面智能体进行训练。由此,通过引入动态任务进度预测与细粒度奖励分配机制,能有效提升策略梯度更新频率,形成任务理解与操作执行协同进化的训练范式。
-