发明授权
- 专利标题: 大语言模型的训练方法、装置、设备和介质
-
申请号: CN202310814621.2申请日: 2023-07-04
-
公开(公告)号: CN116821684B公开(公告)日: 2024-10-11
- 发明人: 丁思宇 , 王硕寰 , 赵晏彬 , 孙宇 , 田浩 , 吴华 , 王海峰
- 申请人: 北京百度网讯科技有限公司
- 申请人地址: 北京市海淀区上地十街10号百度大厦2层
- 专利权人: 北京百度网讯科技有限公司
- 当前专利权人: 北京百度网讯科技有限公司
- 当前专利权人地址: 北京市海淀区上地十街10号百度大厦2层
- 代理机构: 北京市汉坤律师事务所
- 代理商 姜浩然; 吴丽丽
- 主分类号: G06F18/214
- IPC分类号: G06F18/214 ; G06N3/045 ; G06N3/088 ; G06N3/0895 ; G06F16/332
摘要:
本公开提供了一种大语言模型的训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及自然语言处理和深度学习等技术领域。该方法包括:获取大规模无监督文本数据;从大规模问答数据中提取多个问题答案对;基于多个问题答案对,构建弱监督指令数据,包括:针对多个问题答案对中的每一个问题答案对,将该问题答案对中的问题作为样本指令,并将该问题答案对中的答案作为与样本指令对应的真值回复数据,构建与该问题答案对对应的指令训练样本;以及基于与多个问题答案对各自对应的指令训练样本,构建弱监督指令数据;以及利用包括大规模无监督文本数据和弱监督指令数据的混合训练数据,对大语言模型进行预训练。
公开/授权文献
- CN116821684A 大语言模型的训练方法、装置、设备和介质 公开/授权日:2023-09-29