-
公开(公告)号:CN110929632A
公开(公告)日:2020-03-27
申请号:CN201911133216.4
申请日:2019-11-19
Applicant: 复旦大学
Abstract: 本发明提供一种面向复杂场景的车辆目标检测方法,能够针对复杂场景的车辆监控视频完成识别、从而完成具有很好的泛化能力和分类准确率的车辆目标检测,其特征在于,包括如下步骤:步骤S1,从车辆监控视频中获取图片帧;步骤S2,采用拉普拉斯方差算法对图片帧进行帧质量分析并将筛选出的帧质量清晰的优质图片帧存入图片队列;步骤S3,依次从图片队列中取出优质图片帧;步骤S4,将优质图片帧输入预先训练完成的检测网模型进行检测分类从而得到车辆检测结果;步骤S5,将车辆检测结果进行输出,其中,检测网模型为Faster RCNN模型与Resnet-18模型的结合模型,Faster RCNN模型与Resnet-18模型之间卷积值共享。
-
公开(公告)号:CN110910891A
公开(公告)日:2020-03-24
申请号:CN201911118136.1
申请日:2019-11-15
Applicant: 复旦大学
Abstract: 本发明提供一种基于长短时记忆神经网络的说话人分段标注方法及装置,其特征在于,采用基于长短时记忆深度神经网络的说话人识别样本标注模型从待测音频中检测出每个说话人语音出现和持续的时间,包括:步骤S1,对待测音频进行预处理获得音频帧级特征f1和音频帧级特征f2;步骤S2,搭建基于长短时记忆深度神经网络的说话人识别样本标注模型,该说话人样本标注模型包括说话人转换检测子模型以及说话人特征建模子模型;步骤S3,分别训练说话人转换检测子模型以及说话人特征建模子模型;步骤S4,将音频帧级特征f1以及音频帧级特征f2输入基于长短时记忆深度神经网络的说话人识别样本标注模型从而完成待测音频中各个说话人的说话时间段的分类记录。
-
公开(公告)号:CN110866490A
公开(公告)日:2020-03-06
申请号:CN201911105095.2
申请日:2019-11-13
Applicant: 复旦大学
Abstract: 为提供一种在检测准确率以及速率上综合考虑优于现有方法的人脸识别方法及装置,本发明提供了一种基于多任务学习的人脸检测方法及装置,包括如下步骤:步骤S1,构建卷积神经网络模型并进行训练;步骤S2,对目标图像进行预处理;步骤S3,将预预处理目标图像输入人脸检测模型,得到人脸置信度、人脸框的相对坐标以及人脸关键点的坐标;步骤S4,按照人脸置信度的大小进行排序,使用非极大值抑制消除重叠度较大的结果;步骤S5,对输出的结果进行后处理,其中,步骤S1的训练过程包括了采用了前向传递计算多任务误差的方式。本发明还提供了对应的基于多任务学习的人脸检测装置。
-
公开(公告)号:CN110852267A
公开(公告)日:2020-02-28
申请号:CN201911095764.2
申请日:2019-11-11
Applicant: 复旦大学
Abstract: 本发明的目的在于提供一种能够减小图像模糊带来的不良影响、减小人群群体特征干扰信息的人群密度估计方案,具体提供了一种基于光流融合型深度神经网络的人群密度估计方法及装置。其中,光流融合型深度神经网络模型包括空洞卷积子网络以及注意力子网络,空洞卷积子网络以及注意力子网络各含有多个卷积层,位于空洞卷积子网络中的多个卷积层以及位于注意力子网络中的至少一个卷积层相互配合形成不同的融合模块,模型中包含多个与融合模块分别对应的连接层,用于将各个融合模块中的注意力子网络数据流经归一化后矩阵加权到空洞卷积子网络数据流后得到的特征空间。
-
公开(公告)号:CN110782872A
公开(公告)日:2020-02-11
申请号:CN201911093837.4
申请日:2019-11-11
Applicant: 复旦大学
Abstract: 本发明提供一种基于深度卷积循环神经网络的语种识别方法及装置,用于对待测音频序列进行识别从而识别出对应的语种,该方法不需要音频领域的专家知识即可实现高准确率的语种识别功能,其特征在于,包括如下步骤:步骤S1,将待测音频序列分成多个时间长度为2s的音频段;步骤S2,依次将各个音频段进行短时傅里叶变换转化为对应的频谱图;步骤S3,依次将频谱图输入预先训练的卷积循环神经网络模型从而获取对应每个音频段的音频类别判断概率;步骤S4,根据每个音频数据的相应所有音频段的音频类别判断概率得出各个对应音频数据的语种类别。
-
公开(公告)号:CN110659724A
公开(公告)日:2020-01-07
申请号:CN201910866933.1
申请日:2019-09-12
Applicant: 复旦大学
Abstract: 本发明提供一种基于目标尺度的目标检测深度卷积神经网络构建方法,用于在检测某一尺度范围的目标的应用场景下,能够灵活多变、针对不同尺度的目标实现良好适应性的深度卷积神经网,其特征在于,包括:步骤S1,分析图像样本数据集中的所有图像的目标对象,确定目标尺度下限;步骤S2,根据用于目标检测的深度卷积神经网络的主干网结构,得到单个目标对象最终所需的特征数据量,并分析主干网结构的下采样倍数以及最佳下采样倍数;步骤S3,通过深度模型重构方法重构深度卷积神经网络,保证单个目标对象在执行分类运算之前保留充分的特征数据量;步骤S4,使用图像样本数据集对深度卷积神经网络进行训练直至准确率达到要求。
-
公开(公告)号:CN110659653A
公开(公告)日:2020-01-07
申请号:CN201910865573.3
申请日:2019-09-12
Applicant: 复旦大学
Abstract: 目前深度卷积神经网络的主干网都起源于最初的图像分类网络,在应用于目标检测、语义分割、目标分割等领域时,传统骨干网不断抛弃特征信息的做法导致后期分析时信息量不足。为了解决上述问题,本发明提供了一种可充分保留图像特征的特征提取模型,用于对任意分辨率的输入图像进行无损的特征提取操作,其特征在于,包括:多个卷积操作层,由通道分离卷积和1×1卷积构成;多个池化操作层,该池化操作层中池化的步长为1,边界填充以0和1像素交替执行,其中,池化操作层的数量为偶数个。
-
公开(公告)号:CN109492618A
公开(公告)日:2019-03-19
申请号:CN201811487038.0
申请日:2018-12-06
Applicant: 复旦大学
Abstract: 本发明提出了一种利用特征融合来提高检测精度的新型的卷积神经网络模型,即分组扩张卷积神经网络模型,进一步提出了基于该分组扩张卷积神经网络模型的检测方法和装置。该检测方法包括如下步骤:步骤S1,对待测图像进行预处理获得预处理图像;步骤S2,搭建分组扩张卷积神经网络模型;步骤S3,进行模型训练;步骤S4,将预处理图像输入从而得出预处理图像中的目标物体的位置及类别,其中,分组扩张卷积神经网络模型具有多个残差结构以及至少一个第一特征融合层,第一特征融合层由多个残差结构中的一部分分别经上下采样后连接得到,并被归一化到相同的特征空间。
-
公开(公告)号:CN107239735A
公开(公告)日:2017-10-10
申请号:CN201710270344.8
申请日:2017-04-24
Applicant: 复旦大学
IPC: G06K9/00
CPC classification number: G06K9/00718 , G06K9/00228 , G06K9/00335 , G06K9/00906
Abstract: 本发明属于数字图像处理、人工智能技术领域,具体为一种基于视频分析的活体检测方法和系统。主要应用在人脸识别领域中,用以排查照片人脸与视频人脸的攻击。本发明的活体检测方法包括如下步骤:采用摄像头获取视频流;进行系统环境背景更新;提取人脸环境图像与系统背景图像;对比背景图像差异性;进行人眼定位;判断人眼的张合状态;所述分析张合状态序列,判断是否有眨眼动作。本发明使用基于视频分析的活体检测技术,相比于指纹、虹膜识别技术,成本较低,而且眨眼检测与背景分析法中,不需要待测用户的交互动作,用户体验友好。检测算法中的感知Hash、区域增长等算法对光照要求低,光照敏感度不高,鲁棒性高,对于照片攻击与视频攻击能够起到有效的检测作用。
-
公开(公告)号:CN103345653B
公开(公告)日:2016-03-30
申请号:CN201310238694.8
申请日:2013-06-17
Applicant: 复旦大学
Abstract: 本发明属于图像处理技术领域,具体涉及一种基于多摄像头融合的上座率统计方法。本发明步骤为:根据会场坐席的分布和摄像头安装位置,将会场划分为若干个区域;人工标注每个区域的坐席状态,用来训练摄像头的权重;对于每个区域,融合正面视角摄像头和顶部视角摄像头所得的坐席状态判定结果;构建两层神经网络,以单区域判定结果为输入神经元,通过网络融合成整个会场的坐席状态,然后统计会场的上座率。本发明通过多摄像头融合,有效避免了单视角摄像头无法解决的遮挡问题,同时利用多台价格低廉的摄像头代替昂贵的高性能摄像头,节约了成本,提高了上座率统计的准确率。
-
-
-
-
-
-
-
-
-