-
公开(公告)号:CN120046659A
公开(公告)日:2025-05-27
申请号:CN202510170796.3
申请日:2025-02-17
Applicant: 中国科学院计算技术研究所
IPC: G06N3/045 , G06F16/9032 , G06F16/9035 , G06F16/9038 , G06F8/71
Abstract: 本申请公开了一种基于指令微调的大语言模型训练数据生成方法,方法包括:通过代码预处理在原始数据集的模型响应部分提取代码片段;使用代码大语言模型对代码片段进行多次代码总结,得到与代码功能对应的多条自然语言指令;使用代码大语言模型评估总结的自然语言指令,判断是否与原始的代码片段匹配,并筛选出模型认为匹配程度最高的指令到代码,完成从代码到指令的生成,生成代码大语言模型的训练数据集。本发明方法及其系统显著地减少了在训练数据集生成过程中调用闭源模型产生的费用,且训练数据生成效率显著提高。