-
公开(公告)号:CN117726860A
公开(公告)日:2024-03-19
申请号:CN202311707805.5
申请日:2023-12-13
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/09
Abstract: 本发明涉及一种基于大卷积核的像素鲁棒精细分类方法,包括:基于大卷积核构建骨干网络部分,并使用第一图像训练集对所述骨干网络部分进行第一次训练,得到训练好的骨干网络部分;在训练好的骨干网络部分中加入GDCFPN模块,并使用第二图像训练集对加入GDCFPN模块的骨干网络部分进行第二次训练,得到分类模型;将待分类的图片和目标图片输入所述分类模型中,将所述分类模型倒数第二层的输出特征作为待分类的图片的向量表示和目标图片的向量表示,计算待分类的图片的向量表示和目标图片的向量表示之间的距离,并通过设定的阈值判断对待分类的图片和目标图片是否属于同一个身份。本发明能够提升低像素图像的识别准确率。
-
公开(公告)号:CN117354443A
公开(公告)日:2024-01-05
申请号:CN202311127718.2
申请日:2023-09-04
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 本发明涉及一种基于背景过渡的长视频生成方法,包括以下步骤:将文本提示和动作帧作为输入生成嵌入特征,并通过去噪扩散概率模型生成m帧图像帧;对所述m帧图像帧进行背景扩散处理,得到所述m帧图像帧的前景和背景;将所述去噪扩散概率模型第k步生成的m帧图像帧与所述m帧图像帧的前景和背景进行融合,得到新的第k步的图像帧;基于新的第k步的图像帧通过所述去噪扩散概率模型生成新的m帧图像帧;基于新的m帧图像帧通过Gen‑L‑Video短视频扩散模型生成长视频。本发明使得生成的长视频的背景能够平滑过渡,具有连续性。
-
公开(公告)号:CN113807214B
公开(公告)日:2024-01-05
申请号:CN202111015756.X
申请日:2021-08-31
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06F30/27
Abstract: 本发明涉及一种基于deit附属网络知识蒸馏的小目标人脸识别方法,包括:构建deit网络作为学生网络,并构建教师网络并在其后增加残差连接模块,利用教师网络先在高像素人脸图像上训练学生网络;对训练好的学生网络输入小目标人脸图像,得到第二分类特征和第二蒸馏特征;对所述教师网络输入与训练好的deit网络相同身份但未降采样的图像,得到第二教师特征;根据所述第二分类特征与真实标签构建第三损失函数,根据所述第二蒸馏特征与第二教师特征构建第四损失函数,并将所述第三损失函数和第(56)对比文件姜慧明.“基于生成对抗网络与知识蒸馏的人脸修复与表情识别”《.中国硕士学位论文全文数据库》.2020,全文.Qianwei Zhou等.“A Seismic-BasedFeature Extraction Algorithm for RobustGround Target Classification”《.IEEESignal Processing Letters》.2012,第19卷全文.Ji Won Yoon等“.TutorNet: TowardsFlexible Knowledge Distillation for End-to-End Speech Recognition”《.IEEE/ACMTransactions on Audio, Speech, andLanguage Processing 》.2021,第29卷全文.Mengmeng Wu等“.Contact Angle of anEvaporating Droplet of Binary Solution ona Super Wetting Surface”《.ARXIV》.2021,全文.Nandan Kumar Jha等.“On theDemystification of KnowledgeDistillation: A Residual NetworkPerspective”《.ARXIV》.2020,全文.高新波;路文;查林;惠政;亓统帅;姜建德.超高清视频画质提升技术及其芯片化方案.重庆邮电大学学报(自然科学版).2020,(第05期),全文.QIU XiPeng;SUN TianXiang;XU YiGe;SHAOYunFan;DAI Ning;HUANG XuanJing.Pre-trained models for natural languageprocessing: A survey.Science China(Technological Sciences).2020,(第10期),全文.
-
公开(公告)号:CN113435334B
公开(公告)日:2024-02-27
申请号:CN202110718863.2
申请日:2021-06-28
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V40/16 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于深度学习的小目标人脸识别方法,包括:构建高到低的生成对抗网络,将第一像素人脸图像输入训练好的所述生成对抗网络获得接近真实场景下的第二像素人脸图像;构建教师‑学生网络,使用第一像素人脸图像和第二像素人脸图像训练所述教师‑学生网络,将待识别的第二像素人脸图像输入训练好的所述教师‑学生网络得到识别结果。本发明能够提升小目标人脸图像的识别能力。
-
公开(公告)号:CN113435334A
公开(公告)日:2021-09-24
申请号:CN202110718863.2
申请日:2021-06-28
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 本发明涉及一种基于深度学习的小目标人脸识别方法,包括:构建高到低的生成对抗网络,将第一像素人脸图像输入训练好的所述生成对抗网络获得接近真实场景下的第二像素人脸图像;构建教师‑学生网络,使用第一像素人脸图像和第二像素人脸图像训练所述教师‑学生网络,将待识别的第二像素人脸图像输入训练好的所述教师‑学生网络得到识别结果。本发明能够提升小目标人脸图像的识别能力。
-
公开(公告)号:CN116824433A
公开(公告)日:2023-09-29
申请号:CN202310495293.4
申请日:2023-05-05
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V20/40 , G01S17/06 , G01S17/86 , G01C21/16 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/0895
Abstract: 本发明涉及一种基于自监督神经网络的视觉‑惯导‑雷达融合自定位方法,包括:获取视频帧序列、惯导数据和激光雷达点云图;将视频帧序列、惯导数据和激光雷达点云图输入至位姿估计网络模型,得到输入视频帧的相对位姿估计;其中,位姿估计网络模型包括:深度预测网络,用于根据输入的视频帧序列得到深度图;特征提取网络,用于分别对输入的视频帧序列、惯导数据和激光雷达点云图提取特征信息,得到视觉特征、动量特征和雷达特征;特征融合网络,用于将视觉特征和雷达特征进行融合得到预融合特征,再将预融合特征与动量特征进行融合,得到融合特征;位姿估计网络,用于根据融合特征预测位姿变换矩阵。本发明提升了自监督深度定位算法的定位精度。
-
公开(公告)号:CN113807214A
公开(公告)日:2021-12-17
申请号:CN202111015756.X
申请日:2021-08-31
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 本发明涉及一种基于deit附属网络知识蒸馏的小目标人脸识别方法,包括:构建deit网络作为学生网络,并构建教师网络并在其后增加残差连接模块,利用教师网络先在高像素人脸图像上训练学生网络;对训练好的学生网络输入小目标人脸图像,得到第二分类特征和第二蒸馏特征;对所述教师网络输入与训练好的deit网络相同身份但未降采样的图像,得到第二教师特征;根据所述第二分类特征与真实标签构建第三损失函数,根据所述第二蒸馏特征与第二教师特征构建第四损失函数,并将所述第三损失函数和第四损失函数相加得到第二总损失;在所述第二总损失下,对训练好的deit网络进行二次训练。本发明能够对小目标人脸图像进行有效识别。
-
-
-
-
-
-