-
公开(公告)号:CN110659724B
公开(公告)日:2023-04-28
申请号:CN201910866933.1
申请日:2019-09-12
Applicant: 复旦大学
IPC: G06N3/0464 , G06N3/08
Abstract: 本发明提供一种基于目标尺度的目标检测深度卷积神经网络构建方法,用于在检测某一尺度范围的目标的应用场景下,能够灵活多变、针对不同尺度的目标实现良好适应性的深度卷积神经网,其特征在于,包括:步骤S1,分析图像样本数据集中的所有图像的目标对象,确定目标尺度下限;步骤S2,根据用于目标检测的深度卷积神经网络的主干网结构,得到单个目标对象最终所需的特征数据量,并分析主干网结构的下采样倍数以及最佳下采样倍数;步骤S3,通过深度模型重构方法重构深度卷积神经网络,保证单个目标对象在执行分类运算之前保留充分的特征数据量;步骤S4,使用图像样本数据集对深度卷积神经网络进行训练直至准确率达到要求。
-
公开(公告)号:CN110837803B
公开(公告)日:2022-11-29
申请号:CN201911079788.9
申请日:2019-11-07
Applicant: 复旦大学
Abstract: 本发明提供一种基于深度图网络的糖尿病视网膜病变分级方法,能够有效模拟眼科医生对糖尿病视网膜病变的实际诊断过程,对患者单只眼睛的多张图像进行患病特征的信息传递与整合,从而得到更加准确的诊断结果,其特征在于,包括如下步骤:步骤S1,对患者的双眼的多张待测眼底图像进行至少包括图像质量检测以及左右眼分类识别的预处理从而得到预处理眼底图像;步骤S2,分别根据与患者的单眼对应的多张预处理眼底图像构建逻辑图数据,该逻辑图数据包含一个由多张预处理眼底图像作为节点的全连接图;步骤S3,将逻辑图数据输入预先训练完成的糖尿病视网膜病变分级模型从而得到患者的糖尿病视网膜病变等级信息。
-
公开(公告)号:CN106982356A
公开(公告)日:2017-07-25
申请号:CN201710226293.9
申请日:2017-04-08
Applicant: 复旦大学
Abstract: 本发明属于数字图像处理、分布式计算技术领域,具体为一种分布式大规模视频流处理系统。本发明建立了一种分布式大规模视频流处理的模型,并根据此模型提出分布式视频流处理系统。本发明用多机集群的方式对大规模视频流协同处理,用多台机器进行视频流采集,提高吞吐量;主要提供两种接口,一种针对视频不可分割(帧与帧之间前后依赖)的情形,如行人跟踪等,另一种是视频可以分割的情形,如行人检测等。另外,本发明提供了比较科学合理的资源监控方法(主要是CPU资源和内存资源),对于集群的资源扩展提供了依据。此外,引入CPU时间占用率,提出CPU时间占用率来衡量集群的利用率,更加直观和科学。
-
公开(公告)号:CN106682694A
公开(公告)日:2017-05-17
申请号:CN201611223417.X
申请日:2016-12-27
Applicant: 复旦大学
Abstract: 本发明属于数字图像处理技术领域,具体为一种基于深度学习的敏感图像识别方法。本发明主要包括如下步骤:对敏感图像进行预处理;将预处理后的全部敏感图像数据库分为训练集和测试集两部分,其中训练集又分为train和validation两个部分,比例约为5:1;将训练集图像用于深度卷积神经网络训练,训练出来的是卷积神经网络各层之间的参数;训练完成后,用训练的模型初始化测试用的神经网络,测试用的神经网络和训练的网络结构相同;将测试用的敏感图像输入到初始化后的深度神经网络,进行识别测试,实现敏感图像的识别;本发明不需要人为参与和调整,能够完成特征的提取和分类的功能,提供了一种可靠的高性能的基于深度学习的敏感图像识别技术。
-
公开(公告)号:CN110866487B
公开(公告)日:2023-01-17
申请号:CN201911102007.3
申请日:2019-11-12
Applicant: 复旦大学
IPC: G06V40/10 , G06V10/774 , G06V10/80
Abstract: 本发明提供一种大规模行人检测与重识别样本集构建方法,用于对需要标注的原始视频进行预识别,并在识别后让用户根据预识别目标对原始视频完成人工标注从而形成符合标注规范的样本集,其特征在于,包括如下步骤:步骤S1,对原始视频进行预处理从而得到预处理视频帧;步骤S2,搭建一个基于特征融合的特征提取网络以及一个目标检测网络;步骤S3,使用行人检测数据集训练特征提取网络,并使用训练时特征提取网络提取出的特征图训练目标检测网络;步骤S4,将预处理视频帧输入特征提取网络以及目标检测网络从而得到预识别目标;步骤S5,将预处理视频帧以及相应的预识别目标传输给预设的标注工具中让用户进行人为标注。
-
公开(公告)号:CN110991444A
公开(公告)日:2020-04-10
申请号:CN201911133792.9
申请日:2019-11-19
Applicant: 复旦大学
Abstract: 本发明提供一种面向复杂场景的车牌识别方法,用于对复杂场景下的待测图像进行车牌识别从而识别出车牌的字符识别结果,其特征在于,包括:步骤S1,对待测图像进行预处理得到预处理图像集;步骤S2,搭建YOLOv3车牌检测模型;步骤S3,训练车牌检测训练集对YOLOv3车牌检测模型;步骤S4,搭建端到端的车牌识别卷积神经模型;步骤S5,训练端到端的车牌识别卷积神经模型;步骤S6,将预处理图像集输入训练完成的YOLOv3目标检测模型进行车牌目标检测从而得到车牌位置;步骤S7,依次根据车牌位置对相应的待测图像进行处理从而得到车牌图像集;步骤S8,将车牌图像集输入训练完成的端到端的车牌识别卷积神经模型得到车牌的字符识别结果。
-
公开(公告)号:CN110910891A
公开(公告)日:2020-03-24
申请号:CN201911118136.1
申请日:2019-11-15
Applicant: 复旦大学
Abstract: 本发明提供一种基于长短时记忆神经网络的说话人分段标注方法及装置,其特征在于,采用基于长短时记忆深度神经网络的说话人识别样本标注模型从待测音频中检测出每个说话人语音出现和持续的时间,包括:步骤S1,对待测音频进行预处理获得音频帧级特征f1和音频帧级特征f2;步骤S2,搭建基于长短时记忆深度神经网络的说话人识别样本标注模型,该说话人样本标注模型包括说话人转换检测子模型以及说话人特征建模子模型;步骤S3,分别训练说话人转换检测子模型以及说话人特征建模子模型;步骤S4,将音频帧级特征f1以及音频帧级特征f2输入基于长短时记忆深度神经网络的说话人识别样本标注模型从而完成待测音频中各个说话人的说话时间段的分类记录。
-
公开(公告)号:CN110782872A
公开(公告)日:2020-02-11
申请号:CN201911093837.4
申请日:2019-11-11
Applicant: 复旦大学
Abstract: 本发明提供一种基于深度卷积循环神经网络的语种识别方法及装置,用于对待测音频序列进行识别从而识别出对应的语种,该方法不需要音频领域的专家知识即可实现高准确率的语种识别功能,其特征在于,包括如下步骤:步骤S1,将待测音频序列分成多个时间长度为2s的音频段;步骤S2,依次将各个音频段进行短时傅里叶变换转化为对应的频谱图;步骤S3,依次将频谱图输入预先训练的卷积循环神经网络模型从而获取对应每个音频段的音频类别判断概率;步骤S4,根据每个音频数据的相应所有音频段的音频类别判断概率得出各个对应音频数据的语种类别。
-
公开(公告)号:CN110659724A
公开(公告)日:2020-01-07
申请号:CN201910866933.1
申请日:2019-09-12
Applicant: 复旦大学
Abstract: 本发明提供一种基于目标尺度的目标检测深度卷积神经网络构建方法,用于在检测某一尺度范围的目标的应用场景下,能够灵活多变、针对不同尺度的目标实现良好适应性的深度卷积神经网,其特征在于,包括:步骤S1,分析图像样本数据集中的所有图像的目标对象,确定目标尺度下限;步骤S2,根据用于目标检测的深度卷积神经网络的主干网结构,得到单个目标对象最终所需的特征数据量,并分析主干网结构的下采样倍数以及最佳下采样倍数;步骤S3,通过深度模型重构方法重构深度卷积神经网络,保证单个目标对象在执行分类运算之前保留充分的特征数据量;步骤S4,使用图像样本数据集对深度卷积神经网络进行训练直至准确率达到要求。
-
公开(公告)号:CN110659653A
公开(公告)日:2020-01-07
申请号:CN201910865573.3
申请日:2019-09-12
Applicant: 复旦大学
Abstract: 目前深度卷积神经网络的主干网都起源于最初的图像分类网络,在应用于目标检测、语义分割、目标分割等领域时,传统骨干网不断抛弃特征信息的做法导致后期分析时信息量不足。为了解决上述问题,本发明提供了一种可充分保留图像特征的特征提取模型,用于对任意分辨率的输入图像进行无损的特征提取操作,其特征在于,包括:多个卷积操作层,由通道分离卷积和1×1卷积构成;多个池化操作层,该池化操作层中池化的步长为1,边界填充以0和1像素交替执行,其中,池化操作层的数量为偶数个。
-
-
-
-
-
-
-
-
-