- 专利标题: 结合大语言模型的训练样本构建方法、系统、设备及介质
-
申请号: CN202410238783.0申请日: 2024-03-04
-
公开(公告)号: CN117827847A公开(公告)日: 2024-04-05
- 发明人: 孙岗 , 梁云丹 , 严莉 , 黄怡 , 赵鹏 , 曲延盛 , 朱朝阳 , 常英贤 , 王高洲 , 呼海林 , 朱亚运 , 杨坤 , 牛德玲 , 刘新 , 樊静雨 , 胡恒瑞 , 管荑 , 梁天 , 王中龙 , 朱尤祥 , 肖沈阳 , 张金国 , 王雨晨 , 刘保臣 , 胡斌浩
- 申请人: 国网山东省电力公司信息通信公司 , 国网山东省电力公司
- 申请人地址: 山东省济南市市中区经三路17号;
- 专利权人: 国网山东省电力公司信息通信公司,国网山东省电力公司
- 当前专利权人: 国网山东省电力公司信息通信公司,国网山东省电力公司
- 当前专利权人地址: 山东省济南市市中区经三路17号;
- 代理机构: 济南圣达知识产权代理有限公司
- 代理商 刘晓玉
- 主分类号: G06F16/22
- IPC分类号: G06F16/22 ; G06F16/242 ; G06F16/28 ; G06F40/194 ; G06F40/30 ; G06F18/214 ; G06N5/04
摘要:
本发明属于大数据技术领域,为了解决问法训练样本数据少的问题,提出了结合大语言模型的训练样本构建方法、系统、设备及介质,通过利用所获取的库表结构化知识数据构建Prompt模板,所述Prompt模板中库表结构和库表中知识数据相对应;根据所构建的Prompt模板,基于第一大语言模型得到包含问法和查询意图的推理结果;对所得到的推理结果构建扩充问法清单,并对所述扩充问法清单基于第二大语言模型获取问句中关键信息的预标注结果;将所述扩充问法清单以及对应的预标注结果作为问法训练数据用于训练问答模型,帮助在模板生成SQL方案中解决问法训练数据不足,以及扩充问法标注耗时导致方案可实施性降低的难题。
公开/授权文献
- CN117827847B 结合大语言模型的训练样本构建方法、系统、设备及介质 公开/授权日:2024-05-28