一种下一代通用基础模型的训练方法、装置和电子设备

Invention Publication

CN116340779A 一种下一代通用基础模型的训练方法、装置和电子设备审中-实审

Please log in to see more content

Patent Title: 一种下一代通用基础模型的训练方法、装置和电子设备
Application No.: CN202310620027.X

Application Date: 2023-05-30
Publication No.: CN116340779A

Publication Date: 2023-06-27
Inventor: 王业全 , 李响 , 姜鑫 , 孟绪颖 , 孙爱欣
Applicant: 北京智源人工智能研究院
Applicant Address: 北京市海淀区成府路150号智源大厦
Assignee: 北京智源人工智能研究院
Current Assignee: 北京智源人工智能研究院
Current Assignee Address: 北京市海淀区成府路150号智源大厦
Agency: 北京动力号知识产权代理有限公司
Agent 林超
Main IPC: G06F18/214
IPC: G06F18/214 ; G06F40/289 ; G06F40/30 ; G06F40/211

Abstract:

本发明公开了一种下一代通用基础模型的训练方法、装置和电子设备，属于自然语言处理技术领域。通过在语言训练阶段利用原始数据训练模型，以使下一代通用基础模型能够基于输入的原始数据生成对应的统一数据；在教师训练阶段利用统一数据训练模型，以使下一代通用基础模型能够判断命题的正确性；对模型进行交替迭代的语言训练和教师训练，以得到训练好的下一代通用基础模型。该方法通过在训练过程中利用语言原始数据和任务感知数据，教导模型学习任务感知数据，同时强调它作为语言模型的作用。使用者可以利用本发明训练得到的单一模型来处理多项任务，无需针对各个任务进行额外的微调，建模成本低，模型泛化性强，可以提高业务表现的性能。

Information query

Chinese Patent Announcement Global Dossier Espacenet