-
公开(公告)号:CN114647752B
公开(公告)日:2025-04-25
申请号:CN202210369535.0
申请日:2022-04-08
Applicant: 杭州电子科技大学
IPC: G06F16/532 , G06F16/535 , G06F16/9032 , G06F16/9035 , G06F40/30 , G06N3/0464 , G06N3/08 , G06N3/045
Abstract: 本发明公开了一种基于双向可切分深度自注意力网络的轻量化视觉问答方法,提出了一种双向可切分深度自注意力网络,基于设计的宽度、深度均可切分的双向策略,并采用“深而窄”的过滤原则进一步挑选合理的子模型,配合提出的自蒸馏算法,使得网络中的各个子模型都具备视觉问答任务的应用能力。此双向可切分的深度自注意力模型可以根据当下的计算资源动态选择合适的子模型预测答案,取得精度和时延之间的平衡,在预测答案的准确率得到保证的同时使得用户拥有良好的体验感。
-
公开(公告)号:CN116644316A
公开(公告)日:2023-08-25
申请号:CN202310629849.4
申请日:2023-05-31
Applicant: 杭州电子科技大学
IPC: G06F18/214 , G06F18/24 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种面向多模态多任务学习的轻量化适配网络学习方法,包括如下步骤:1、构建下游任务数据集,2、构建深度自注意力网络模型,3、预训练权重裁剪,4、构建任务适配器,5、适配预训练模型,6、设计渐进式引导蒸馏训练并训练模型。该方法对预训练模型部分权重进行裁剪,并采用高效的任务适配器与之适配。本发明提出了一种渐进式引导蒸馏训练算法以更好地填补预训练任务和下游任务之间的差异,保证了模型在下游任务上的性能。本发明可以与任何现有的基于深度自注意力网络的预训练模型相结合,通过训练得到在下游任务性能、模型部署时总存储开销、模型推理时计算开销和模型配置灵活性等方面均存在优越性的适配器模型。
-
公开(公告)号:CN114647752A
公开(公告)日:2022-06-21
申请号:CN202210369535.0
申请日:2022-04-08
Applicant: 杭州电子科技大学
IPC: G06F16/532 , G06F16/535 , G06F16/9032 , G06F16/9035 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于双向可切分深度自注意力网络的轻量化视觉问答方法,提出了一种双向可切分深度自注意力网络,基于设计的宽度、深度均可切分的双向策略,并采用“深而窄”的过滤原则进一步挑选合理的子模型,配合提出的自蒸馏算法,使得网络中的各个子模型都具备视觉问答任务的应用能力。此双向可切分的深度自注意力模型可以根据当下的计算资源动态选择合适的子模型预测答案,取得精度和时延之间的平衡,在预测答案的准确率得到保证的同时使得用户拥有良好的体验感。
-
-