-
公开(公告)号:CN112992155B
公开(公告)日:2022-10-14
申请号:CN202110231097.7
申请日:2021-03-02
Applicant: 复旦大学
Abstract: 本发明提供了一种基于残差神经网络的远场语音说话人识别方法及装置,用于在嘈杂混响且有多个说话人的环境下,对短时的待测音频进行远场语音说话人识别从而确定该待测音频对应的说话人,其特征在于,包括如下步骤:对待测音频进行预处理得到预处理短时语音;利用语音活动检测模型对预处理短时语音进行语音分割得到分割结果,并从滤除了噪声以及静音的分割结果中提取得到语音向量特征;基于语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量;基于预定的声音特征库对说话人嵌入向量进行相似度计算得到语音相似度值,根据该语音相似度值确定待测音频对应的说话人。
-
公开(公告)号:CN113095199B
公开(公告)日:2022-06-14
申请号:CN202110367156.3
申请日:2021-04-06
Applicant: 复旦大学
IPC: G06V40/10 , G06V10/762 , G06V10/764 , G06V40/16 , G06V20/52 , G06V10/82 , G06K9/62 , G06N3/08
Abstract: 本发明提供一种能够快速识别行人身份并捕捉该行人全身像图的高速行人身份识别方法及装置,其特征在于,高速行人身份识别方法包括以下步骤:步骤S1,获取摄像头的识别号以及各个摄像头的道路连通关系;步骤S2,识别出目标行人的人脸图像以及全身图像作为目标行人信息进行存储;步骤S3,获取与识别出目标行人的摄像头具有对应的道路连通关系的摄像头作为待识别摄像头,步骤S4,从待识别摄像头中获取图像帧;步骤S5,将图像帧输入行人检测算法模型;步骤S6,对图像帧进行目标行人识别;步骤S7,根据行人识别结果获取待匹配人脸图像并进行人脸识别;步骤S8,将目标行人的全身图像与相应的识别号对应存入输出缓存队列;步骤S9,重复步骤S3至步骤S7。
-
公开(公告)号:CN114519880A
公开(公告)日:2022-05-20
申请号:CN202210120706.6
申请日:2022-02-09
Applicant: 复旦大学
Abstract: 本发明提供一种基于跨模态自监督学习的主动说话人识别方法,通过利用视频的同步性特征来自动划分正负样本对用于训练,使得模型能够在无需人工标注的情况下训练至合适的参数,进一步,采用光流法追踪像素点在时间维度上的运动轨迹,通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图,在注意力图上寻找注意力峰值的同时对其周围的区域进行非极大值抑制,能够方便准确地获取单帧注意力图上的人脸位置,通过沿着光流的轨迹反向投影,可准确获得原图中每一帧图片的人脸位置,通过利用人脸特征可计算与音频信号的余弦相似度,用预定的阈值过滤,从而获得能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。
-
公开(公告)号:CN114519830A
公开(公告)日:2022-05-20
申请号:CN202210143009.2
申请日:2022-02-16
Applicant: 复旦大学
IPC: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种基于深度学习的大型会场座席定位方法,用于对大型会场视频流中不同尺度比例的座椅实现定位,其特征在于,包括以下步骤:步骤S1,获取待测会场的俯视角度的视频流;步骤S2,采用ResNet50和FPN结合的网络作为Backbone,连接至FAM模块和ODM模块以构建初始卷积神经网络;步骤S3,基于随机梯度下降法和最小化损失函数对初始卷积神经网络进行训练得到大型会场座席检测模型;步骤S4,采用大型会场座席检测模型对视频流中每隔设定帧的图像进行座席检测,并输出待测会场的所有座椅对应的定位检测结果。本发明能够高效地识别由不同机位拍摄得到的不同色彩模式如室内灯光和夜市红外光下的尺度、角度、比例多样的座椅目标,具有强泛化和高精度的优势。
-
公开(公告)号:CN114496228A
公开(公告)日:2022-05-13
申请号:CN202210099589.X
申请日:2022-01-27
Applicant: 复旦大学
IPC: G16H50/20 , G06V40/18 , G06V10/46 , G06V10/20 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种计算资源受限的糖网病辅助诊断方法及装置,采用残差神经网络模型对患者的眼底图像进行分类预测,且对残差神经网络模型进行了改进,改进了残差块以及提取了浅层特征,该模型具有很强的关系归纳偏差,因此,改进后的模型能够学习到更多的特征,更好地进行特征表达,更加糖网病辅助诊断任务,能够最终提高分类的精度。另外,本发明的模型结构简单,不需要使用模型混合、多任务训练以及度量学习等方法,因此,与现有的高精度模型相比,本实施例的模型构建快速方便,且训练过程所消耗的计算量也较小,适用于内存和计算资源受限的环境。
-
公开(公告)号:CN114492755A
公开(公告)日:2022-05-13
申请号:CN202210106356.8
申请日:2022-01-28
Applicant: 复旦大学
Abstract: 本发明提供一种基于知识蒸馏的目标检测模型压缩方法,通过FPN分别提取教师网络模型和学生网络模型的特征图,通过计算两者的对应的特征图的Gram矩阵之间的差异,并通过反向传播,能够使学生网络模型向教师网络模型学习不同通道之间的相程度,进而提高学生网络模型的检测精度,从而能够对目标检测模型进行有效压缩,并且在压缩的同时保证检测精度。其中,教师网络模型为以ResNet101为骨干网络的Faster RCNN,学生网络模型为以ResNet50为骨干网络的Faster RCNN,因此,减少了约一半的中间层的层数,实现了有效的模型压缩,并且通过应用Gram矩阵,保证了压缩后模型的检测精度。
-
公开(公告)号:CN114490890A
公开(公告)日:2022-05-13
申请号:CN202210093431.1
申请日:2022-01-26
Applicant: 复旦大学
Abstract: 本发明提供一种基于Hadoop的分布式数据仓库的构建方法,其中,Flume用于对目标数据进行采集,Hive用于对采集得到的数据进行计算,从而形成离线的、分布式的数据仓库,Zookeeper用于对数据仓库的各类组件进行协调服务,并且数据仓库基于预定的分层模型被分为了多层,因此,通过本发明的构建方法,能够基于Hadoop文件系统搭建离线的、分布式的数据仓库,并且通过对数据仓库进行分层,能够将原始的杂乱无章的大量数据进行聚合整理,并可根据业务需要得到多个数据指标,从而能够使大型企业更方便、高效地对其海量数据进行有效的管理。
-
公开(公告)号:CN113269230A
公开(公告)日:2021-08-17
申请号:CN202110440925.8
申请日:2021-04-23
Abstract: 本发明提供了一种基于时序高维特征提取的多肺炎CT分类方法及装置,用于针对疑似患者CT影像进行分类,从而得到分类结果,其特征在于,对疑似患者CT影像进行预处理得到预处理影像,并利用肺炎分类模型对进行推断得到分类结果。其中,肺炎分类模型包括一阶段单张切片特征提取网络以及二阶段跨切片特征提取网络,一阶段单张切片特征提取网络对预处理影像进行特征提取,得到预处理影像中每张切片对应的特征图作为单张切片特征图,二阶段跨切片特征提取网络先从所有单张切片特征图中提取得到时序上下文融合特征,然后进行感受野增强,从而得到跨切片特征图,最后基于该跨切片特征图进行推断得到CAM激活图结果以及分类概率预测值。
-
公开(公告)号:CN112836670A
公开(公告)日:2021-05-25
申请号:CN202110208316.X
申请日:2021-02-24
Applicant: 复旦大学
Abstract: 本发明提供了一种基于自适应图网络的行人动作检测方法,属于机器学习领域,用于对无裁切视频进行视频的动作定位以及动作分类,其特征在于,包括如下步骤:步骤S1,从原始的无裁切视频中提取多个视频特征;步骤S2,根据步骤S1中获得的多个视频特征生成无裁切视频的多个视频提名;步骤S3,根据无裁切视频的多个视频特征以及多个视频提名建立自适应图神经网络模型;步骤S4,将包含多个训练视频的训练集输入步骤S3中的自适应图神经网络模型进行训练,得到训练完成的自适应图神经网络模型;步骤S5,根据新输入的无裁切视频的视频特征以及视频提名,利用训练完成的自适应图神经网络模型的得到动作定位以及动作分类。
-
公开(公告)号:CN112818917A
公开(公告)日:2021-05-18
申请号:CN202110208326.3
申请日:2021-02-24
Applicant: 复旦大学
Abstract: 本发明提供了一种实时行人检测与重识别方法及装置,用于对多路行人视频流中的特定行人进行实时监测,其特征在于,包括如下步骤:利用目标检测模型对每路行人视频流进行人脸检测,得到行人人脸;利用相似度判别模型对行人人脸与特定行人人脸库人脸相似度计算得到人脸相似度值;当人脸相似度值大于特定人脸阈值时,该行人人脸为特定行人人脸;从行人视频流中裁剪出特定行人截图,并与对应的ID对应存储得到特定行人库;利用目标检测模型进行行人检测得到待识别行人,并裁剪出待识别行人截图;基于待识别行人截图以及特定行人库通过相似度判别模型计算得到行人相似度值;当行人相似度值大于预定的特定行人阈值时,该待识别行人为特定行人。
-
-
-
-
-
-
-
-
-