-
公开(公告)号:CN119669924A
公开(公告)日:2025-03-21
申请号:CN202411625602.6
申请日:2024-11-14
Applicant: 北京邮电大学
IPC: G06F18/2431 , G06F18/214 , G06F40/216 , G06F40/295
Abstract: 本发明提供一种适用于大模型智能体的性能评价方法,包括:获取待评价智能体的样本数据量,且获取待评价智能体的任务输出类型;当待评价智能体的任务输出类型为连续输出结果时,通过配对t检验方式,获取待评价智能体的对比评价结果;当待评价智能体的任务输出类型为二分类输出结果时,通过配对卡方检验方式,获取待评价智能体的对比评价结果;其中,对比评价结果包括对比实验评价结果和消融实验评价结果。本发明通过对比实验,量化大模型智能体与原始LLM的性能差异,通过消融实验分析各模块对整体性能的贡献,为智能体的进一步优化提供数据支持与改进依据。实现对智能体的性能进行系统和全面的评估,确保性能评估的准确性和可重复性。