-
公开(公告)号:CN119862269A
公开(公告)日:2025-04-22
申请号:CN202411821931.8
申请日:2024-12-11
Applicant: 科大讯飞股份有限公司
IPC: G06F16/334 , G06F18/214
Abstract: 本申请实施例提供了一种数据合成方法、模型预训练方法、数据合成装置、计算机可读存储介质以及电子设备,涉及人工智能技术领域。该方法包括:将目标预训练模型对应的目标任务进行拆分,得到多个子任务;根据种子数据集中的种子数据,确定提示词,其中,种子数据集中数据为从多种渠道收集的关于目标任务的数据,提示词为子任务对应的提示词或者为目标任务对应的提示词,提示词的样式包括多种;将提示词输入大语言模型,其中,该大语言模型为经过训练的模型,且该模型输出的生成数据对应于上述提示词;根据上述生成数据,确定关于目标任务的合成数据。本申请实施例能够提供大规模且高质量的合成数据,有利于满足预训练对大规模高质量数据的需求。