一种基于可线性扩展学习基因的模型初始化方法

    公开(公告)号:CN117273068B

    公开(公告)日:2024-04-16

    申请号:CN202311264810.3

    申请日:2023-09-28

    Applicant: 东南大学

    Inventor: 耿新 夏诗禹 杨旭

    Abstract: 本发明提供了一种基于可线性扩展学习基因的模型初始化方法,包括:首先创建一个由学习基因线性扩展的辅助Transformer,通过蒸馏方法训练Transformer;然后通过线性扩展训练完毕的学习基因来初始化不同深度的Transformer,以适应不同的下游任务。本发明方法训练一个通用的、可线性扩展的学习基因,该学习基因可用于初始化不同深度的后代模型,同时综合考虑到模型的性能和资源问题,不需要再对各特定模型进行预训练;从祖先模型中提炼出学习基因,之后就不再需要祖先模型,节省额外开销。采用本发明方法初始化不同深度的Transformer,在下游任务上表现出良好的性能。

    一种基于可线性扩展学习基因的模型初始化方法

    公开(公告)号:CN117273068A

    公开(公告)日:2023-12-22

    申请号:CN202311264810.3

    申请日:2023-09-28

    Applicant: 东南大学

    Inventor: 耿新 夏诗禹 杨旭

    Abstract: 本发明提供了一种基于可线性扩展学习基因的模型初始化方法,包括:首先创建一个由学习基因线性扩展的辅助Transformer,通过蒸馏方法训练Transformer;然后通过线性扩展训练完毕的学习基因来初始化不同深度的Transformer,以适应不同的下游任务。本发明方法训练一个通用的、可线性扩展的学习基因,该学习基因可用于初始化不同深度的后代模型,同时综合考虑到模型的性能和资源问题,不需要再对各特定模型进行预训练;从祖先模型中提炼出学习基因,之后就不再需要祖先模型,节省额外开销。采用本发明方法初始化不同深度的Transformer,在下游任务上表现出良好的性能。

Patent Agency Ranking