-
公开(公告)号:CN117669693A
公开(公告)日:2024-03-08
申请号:CN202311422140.3
申请日:2023-10-30
Applicant: 北京大学
Abstract: 本发明公开了一种基于多教师多模态模型的知识蒸馏方法及系统,属于自然语言处理领域,本发明通过多个教师模型联合进行多模态知识蒸馏到学生模型,这些教师模型具有不同的架构、初始化、训练数据或任务,这种多样性有助于提取不同角度和类型的知识,从而提高了学生模型的鲁棒性以及对图像、文本和图文多模态的理解能力,提升图像识别的准确性、文本理解的准确性和多模态检索的召回率和准确性。
-
公开(公告)号:CN117709395A
公开(公告)日:2024-03-15
申请号:CN202311456296.3
申请日:2023-11-03
Applicant: 北京大学
Abstract: 本发明公开了一种结合知识蒸馏和动态词剪枝的语言模型轻量化方法,属于自然语言处理领域,本方法结合了知识蒸馏和动态词剪枝,针对一个小语言模型,在知识蒸馏的训练的过程中通过目标函数的设计在传递知识的同时提升了其面向动态词剪枝的鲁棒性,从而可以在计算时在相同的词剪枝比例下取得更好的性能,从而使得语言模型在性能一致时实现更高的加速比。
-