-
公开(公告)号:CN112613273B
公开(公告)日:2022-09-23
申请号:CN202011490078.8
申请日:2020-12-16
Applicant: 上海交通大学
IPC: G06F40/126 , G06F40/242 , G06F40/289 , G06F40/295
Abstract: 本发明提供了多语言BERT序列标注模型的压缩方法及系统,涉及BERT类模型的知识蒸馏技术领域,该方法包括:步骤1:基于Wordpiece算法从多语语料中抽取词表;步骤2:对多/单语言BERT教师模型、多语言BERT学生模型进行预训练;步骤3:基于人工标注的下游任务数据对多/单语言BERT教师模型进行微调;步骤4:利用多/单语言BERT教师模型对预训练后的多语言BERT学生模型进行残差知识蒸馏;步骤5:基于人工标注的下游任务数据对蒸馏后的多语言BERT学生模型进行微调。本发明通过残差学习和多对一的知识蒸馏方式,提高了学生模型的准确率和泛化程度,降低了多语言环境下BERT类序列标注模型部署所需的硬件资源。
-
公开(公告)号:CN113515948A
公开(公告)日:2021-10-19
申请号:CN202110031416.X
申请日:2021-01-11
Applicant: 腾讯科技(深圳)有限公司 , 上海交通大学
IPC: G06F40/30 , G06F40/205 , G06N3/08 , G06N3/04
Abstract: 本申请实施例提供了一种语言模型训练方法、装置、设备及存储介质,涉及机器学习技术领域。所述方法包括:基于全量预训练语料对初始的学生语言模型进行全量预训练,得到全量预训练后的学生语言模型;基于增量预训练语料对全量预训练后的学生语言模型进行增量预训练,得到增量预训练后的学生语言模型;其中,增量预训练语料是在全量预训练语料的基础上新增的预训练语料;采用教师语言模型对增量预训练后的学生语言模型进行知识蒸馏处理,得到蒸馏后的学生语言模型;采用目标任务的第二训练样本集,对蒸馏后的学生语言模型进行参数调整处理,得到完成训练的学生语言模型。采用本申请实施例提供的技术方案,能够节省语言模型训练的时间。
-
公开(公告)号:CN112613273A
公开(公告)日:2021-04-06
申请号:CN202011490078.8
申请日:2020-12-16
Applicant: 上海交通大学
IPC: G06F40/126 , G06F40/242 , G06F40/289 , G06F40/295
Abstract: 本发明提供了多语言BERT序列标注模型的压缩方法及系统,涉及BERT类模型的知识蒸馏技术领域,该方法包括:步骤1:基于Wordpiece算法从多语语料中抽取词表;步骤2:对多/单语言BERT教师模型、多语言BERT学生模型进行预训练;步骤3:基于人工标注的下游任务数据对多/单语言BERT教师模型进行微调;步骤4:利用多/单语言BERT教师模型对预训练后的多语言BERT学生模型进行残差知识蒸馏;步骤5:基于人工标注的下游任务数据对蒸馏后的多语言BERT学生模型进行微调。本发明通过残差学习和多对一的知识蒸馏方式,提高了学生模型的准确率和泛化程度,降低了多语言环境下BERT类序列标注模型部署所需的硬件资源。
-
-