-
公开(公告)号:CN118780341A
公开(公告)日:2024-10-15
申请号:CN202410891816.1
申请日:2024-07-04
Applicant: 成都信息工程大学
IPC: G06N3/084 , G06N3/0464 , G06N3/0455
Abstract: 本发明涉及一种基于Inception模块的提示微调方法,通过将一个用于下游任务的提示网络插入预训练模型内部,该网络包含有随机选取预训练模型词表进行初始化的连续提示,以及与连续提示相连接的多个尺寸递增的带有上下投影的瓶颈网络,其形状类似于Inception模块,起到对单一连续提示向量的深度和宽度进行高效扩充的作用。在针对下游任务微调预训练模型时,冻结主干模型使得仅提示网络可以进行参数更新,因提示网络放置于预训练模型的中后部,在反向传播过程中距离较短任务相关信息损失少,同时优化训练时间和内存占用。