-
公开(公告)号:CN117273068B
公开(公告)日:2024-04-16
申请号:CN202311264810.3
申请日:2023-09-28
Applicant: 东南大学
IPC: G06N3/0455 , G06N3/047 , G06N3/048 , G06N3/096 , G06N3/084
Abstract: 本发明提供了一种基于可线性扩展学习基因的模型初始化方法,包括:首先创建一个由学习基因线性扩展的辅助Transformer,通过蒸馏方法训练Transformer;然后通过线性扩展训练完毕的学习基因来初始化不同深度的Transformer,以适应不同的下游任务。本发明方法训练一个通用的、可线性扩展的学习基因,该学习基因可用于初始化不同深度的后代模型,同时综合考虑到模型的性能和资源问题,不需要再对各特定模型进行预训练;从祖先模型中提炼出学习基因,之后就不再需要祖先模型,节省额外开销。采用本发明方法初始化不同深度的Transformer,在下游任务上表现出良好的性能。
-
公开(公告)号:CN117273068A
公开(公告)日:2023-12-22
申请号:CN202311264810.3
申请日:2023-09-28
Applicant: 东南大学
IPC: G06N3/0455 , G06N3/047 , G06N3/048 , G06N3/096 , G06N3/084
Abstract: 本发明提供了一种基于可线性扩展学习基因的模型初始化方法,包括:首先创建一个由学习基因线性扩展的辅助Transformer,通过蒸馏方法训练Transformer;然后通过线性扩展训练完毕的学习基因来初始化不同深度的Transformer,以适应不同的下游任务。本发明方法训练一个通用的、可线性扩展的学习基因,该学习基因可用于初始化不同深度的后代模型,同时综合考虑到模型的性能和资源问题,不需要再对各特定模型进行预训练;从祖先模型中提炼出学习基因,之后就不再需要祖先模型,节省额外开销。采用本发明方法初始化不同深度的Transformer,在下游任务上表现出良好的性能。
-