-
公开(公告)号:CN118866168A
公开(公告)日:2024-10-29
申请号:CN202410763378.0
申请日:2024-06-13
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种模型测评方法、装置、设备、介质及产品,该方法包括:通过对泛化学领域内多个候选大模型的任务进行聚类,得到泛化学领域的多级测评维度;获取待测评的大模型在多级测评维度下的测评指标和测评数据集,待测评的大模型包括基于多个候选大模型进行筛选得到的大模型;基于多级测评维度下的测评指标和测评数据集,对待测评的大模型从多级测评维度进行测试,得到待测评的大模型在多级测评维度下的测评结果。从而实现对泛化学领域内大模型更加全面地测评,以便各个大模型之间横向比较,为模型优化提供指导信息。