-
公开(公告)号:CN116663532A
公开(公告)日:2023-08-29
申请号:CN202310312449.0
申请日:2023-03-28
Applicant: 中国科学院信息工程研究所
IPC: G06F40/216 , G06F40/284 , G06F40/30 , G06N3/045 , G06N3/08
Abstract: 本发明公开一种基于核对齐推理的对比自蒸馏BERT加速方法及装置。所述方法包括:构建推理模型;其中,所述推理模型是每一transformer层之后额外添加一个早退分类器的BERT模型;基于分类损失、对比损失和蒸馏损失,训练推理模型;使用训练后的推理模型进行任务预测,并基于核对齐的退出机制输出所述任务的预测结果。本发明实现了高加速比情况下优越的模型性能。
-
公开(公告)号:CN116484839A
公开(公告)日:2023-07-25
申请号:CN202310312448.6
申请日:2023-03-28
Applicant: 中国科学院信息工程研究所
IPC: G06F40/216 , G06F40/284 , G06F40/30 , G06N3/045 , G06N3/08
Abstract: 本发明公开一种基于协同元学习的推理加速方法及装置。所述方法包括:构建推理模型;其中,所述推理模型是每一transformer层之后额外添加一个早退分类器的基于transformer的模型;训练推理模型;其中,所述训练推理模型包括:优化推理模型的初始参数、和将优化参数传入Adam优化器进行梯度更新,以训练早退分类器;使用训练后的推理模型进行任务预测,并基于熵的退出机制输出所述任务的预测结果。本发明可以在保持很小的性能损失的同时提升模型的推理速度。
-
公开(公告)号:CN118194952A
公开(公告)日:2024-06-14
申请号:CN202410024764.8
申请日:2024-01-08
Applicant: 中国科学院信息工程研究所
IPC: G06N3/082 , G06N3/0495 , G06N3/045 , G06N3/047
Abstract: 本发明涉及一种基于助教的动态目标对齐的数据高效知识蒸馏方法和系统。该方法包括:在数据层,采用基于熵的策略选择信息丰富的样本,将其输入学生模型进行学习;在模型层,引入助教模型,根据训练过程中学生模型的能力的演变动态地查询教师模型或助教模型;在目标层,根据熵值从教师模型中选择信息丰富的层,使学生模型与选择的教师模型中信息丰富的层进行动态对齐;通过学生模型、教师模型和助教模型,使知识从教师模型向学生模型转移,并随着学生模型的能力的进化提高知识蒸馏性能。本发明能够从数据、模型和目标层面全面提升知识蒸馏效果。
-
-