-
公开(公告)号:CN118097685A
公开(公告)日:2024-05-28
申请号:CN202410298433.3
申请日:2024-03-15
Applicant: 南京大学
Abstract: 一种基于自监督学习的多模态预训练模型迁移方法,对于预训练好的视觉语言模型,通过一个两阶段文本提示优化框架对文本提示进行优化,提升视觉语言模型的开集能力,首先利用初始化后的文本提示通过有监督任务和自监督任务进行联合优化,然后再利用自监督任务进行二阶段优化,得到鲁棒且泛化性强的文本提示,从而将视觉语言模型迁移到下游图像识别任务中。本发明提出一种新颖且简洁的框架,设计鲁棒且泛化性强的文本提示,弥补预训练任务和下游任务间差异,缓解有监督学习过程中的过拟合问题,对任意的测试类别集合自适应,且无需利用额外知识库;能够有效且高效地将预训练多模态模型迁移到下游任务中,并增强其泛化性。
-
公开(公告)号:CN119835434A
公开(公告)日:2025-04-15
申请号:CN202411934668.3
申请日:2024-12-26
Applicant: 上海人工智能创新中心 , 南京大学
IPC: H04N19/174 , H04N19/132 , H04N19/587 , H04N19/59
Abstract: 本发明公开了一种视频特征压缩方法、装置、设备、介质及产品。该方法包括:获取待压缩视频,并对所述待压缩视频进行采样,得到视频帧集合;根据所述视频帧集合组建视频片段集合,并对每个视频片段进行编码与压缩,得到每个所述视频片段对应的目标视频特征集合;将每个所述视频片段对应的目标视频特征集合进行解码,得到已压缩视频特征。通过本发明的技术方案,能够利用长视频中视觉信息的冗余,用渐进式的压缩方式将长视频上下文从片段级别压缩到视频级别,在保留必要细节的同时大幅减少计算量。
-