-
公开(公告)号:CN112966648B
公开(公告)日:2023-10-10
申请号:CN202110319459.8
申请日:2021-03-25
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于核扩展块字典稀疏表示的遮挡人脸识别方法,包括步骤(S1)):构建训练样本集X,将训练样本集X划分为B个训练块样本集#imgabs0#步骤(S2):构建标准样本集N;步骤(S3):构建测试样本集Y;步骤(S4):构建训练块样本#imgabs1#的遮挡字典#imgabs2#和待测块样本#imgabs3#的遮挡字典#imgabs4#得到混合完备遮挡块字典#imgabs5#步骤(S5):根据混合完备遮挡块字典#imgabs6#采用SRC模型对待测样本进行线性稀疏表示分类,进行该待测样本的遮挡人脸识别。本发明通过对原始图像分块,构建块图像集,其目的是充分考虑非约束人脸图像数据的复杂性,以及人脸空间拓扑信息在遮挡人脸识别中的重要性,相比原始图像,块图像更集中关注人脸结构特征或遮挡信息,更有利于遮挡人脸的准确识别。
-
公开(公告)号:CN110544490B
公开(公告)日:2022-04-05
申请号:CN201910694072.3
申请日:2019-07-30
Applicant: 南京工程学院 , 江苏第二师范学院(江苏省教育科学研究院)
Abstract: 本发明公开了一种基于高斯混合模型和空间功率谱特征的声源定位方法,包含训练和测试两个阶段,在训练阶段提取每个方位的空间功率谱作为特征向量,为每个方位建立高斯混合模型,在测试阶段由高斯混合模型分类器给出测试信号相对于每个方位的似然度,基于最大似然度得到声源方位的估计值。本发明利用了声源方位、声学环境等信息,通过高斯混合模型可以有效刻画类别特征,仅需要一帧信号就可以实现实时声源定位,显著提高了定位性能,具有更强的抗噪能力。
-
公开(公告)号:CN119564200A
公开(公告)日:2025-03-07
申请号:CN202411646554.9
申请日:2024-11-18
Applicant: 南京工程学院 , 中国听力语言康复研究中心
IPC: A61B5/12 , G16H50/30 , G06N3/0442 , G06F18/25 , G06F18/22
Abstract: 本发明公开了一种基于言语测听的听障患者听损评测方法及系统,首先利用言语测听的原始音频数据构建具有原始音频声纹特征的语音合成模型,再清洗原始音频文本数据和用户反馈文本数据,接着采用语音合成模型将原始音频文本数据和用户反馈文本数据转换为音频信号并获得第一音频信号和第二音频信号,再将第一音频信号和第二音频信号进行傅里叶变换并计算各频点能量从而获得多组测听音频数据;本发明实现了具有自动评测患者听力状态的功能,且不需要额外的纯音测听过程,同时基于言语测听结果自动评测患者听力状态的方法能融合患者的个性信息进行评测,不仅评测效率较高,还使得评测结果更为准确,适合被广泛推广和使用。
-
公开(公告)号:CN112966649A
公开(公告)日:2021-06-15
申请号:CN202110319464.9
申请日:2021-03-25
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于核扩展字典稀疏表示的遮挡人脸识别方法,包括步骤(S1)):构建训练样本集X;步骤(S2):构建标准样本集N;步骤(S3):构建测试样本集Y;步骤(S4):构建训练样本集X的遮挡字典D1和测试样本集Y的遮挡字典D2,得到混合完备遮挡字典D;步骤(S5):根据混合完备遮挡字典D,采用SRC模型对待测样本进行线性稀疏表示分类,进行该待测样本的遮挡人脸识别。本发明用来消除样本字典中像素冗余信息,获取更具判别性和表征性的字典,使样本字典中仅包含人脸结构特征,而不含有像素冗余信息和干扰信息,并使遮挡字典中仅包含训练样本和测试样本的遮挡信息,而无人脸结构特征,两者相结合,以提高遮挡人脸识别的准确性。
-
公开(公告)号:CN112904279A
公开(公告)日:2021-06-04
申请号:CN202110059164.1
申请日:2021-01-18
Applicant: 南京工程学院
IPC: G01S5/22 , G06N3/04 , G10L21/0208 , G10L21/0216 , G10L25/30 , G10L25/45
Abstract: 本发明公开了一种基于卷积神经网络和子带SRP‑PHAT空间谱的声源定位方法,包括:麦克风阵列采集语音信号,对采集的语音信号进行分帧和加窗的预处理得到单帧信号;计算每帧信号的子带SRP‑PHAT空间谱矩阵;将所有帧信号的子带SRP‑PHAT空间谱矩阵输入训练完成的卷积神经网络,输出语音信号属于每个方位角的概率,取概率最大的方位角作为该语音信号的声源方位角估计值。本发明可提高麦克风阵列在复杂声学环境下的声源定位性能,提高对声源空间结构、混响和噪声的泛化能力;可离线完成卷积神经网络的训练过程,将训练好的卷积神经网络保存于内存中,测试时仅需要一帧信号就可以实现实时声源定位。
-
公开(公告)号:CN118349033A
公开(公告)日:2024-07-16
申请号:CN202410452200.4
申请日:2024-04-16
Applicant: 南京工程学院
IPC: G05D1/695 , G05D109/20
Abstract: 本发明提供了一种基于改进蚁群算法的无人机群森林火点探测与扑灭方法及系统,涉及无人机控制技术领域。步骤如下:根据初始飞行速度与初始载水量,更新无人机飞行速度;探测当前飞行方向是否有障碍物并执行避障操作;搜索当前区域火点,如果没有火点则释放排斥信息素;如果有火点则消耗水源进行灭火,并在当前区域内释放吸引信息素;根据排斥信息素和吸引信息素更新转移概率函数,根据转移概率函数决定下一时刻飞行方向;全覆盖条件下,如果火点数目为0,则结束当前轮次的火点探测。本发明考虑了飞行速度和载水量之间的关系,更加贴合实际情况;引入吸引信息素和排斥信息素改进蚁群算法,能够更快地覆盖所有搜索区域,快速检测火灾点。
-
公开(公告)号:CN112904279B
公开(公告)日:2024-01-26
申请号:CN202110059164.1
申请日:2021-01-18
Applicant: 南京工程学院
IPC: G01S5/22 , G10L21/0208 , G10L21/0216 , G10L25/30 , G10L25/45 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于卷积神经网络和子带SRP‑PHAT空间谱的声源定位方法,包括:麦克风阵列采集语音信号,对采集的语音信号进行分帧和加窗的预处理得到单帧信号;计算每帧信号的子带SRP‑PHAT空间谱矩阵;将所有帧信号的子带SRP‑PHAT空间谱矩阵输入训练完成的卷积神经网络,输出语音信号属于每个方位角的概率,取概率最大的方位角作为该语音信号的声源方位角估计值。本发明可提高麦克风阵列在复杂声学环境下的声源定位性能,提高对声源空间结构、混响和噪声的泛化能力;可离线完成卷积神经网络的训练过程,将训练好的卷积神经网络保存于内存中,测试时仅需要一帧信号就可以实现(56)对比文件Vecchiotti等.End-to-end Binaural Sound Localisation from the Raw Waveform.《IEEE》.2019,451-455.S. Jiang, W. L., P. Yuan, Y. Sun andH. Liu.Deep and CNN fusion method forbinaural sound source localization《.TheJournal of Engineering》.2020,511–516.张文涛;韩莹莹;黎恒.基于卷积神经网络的交通声音事件识别方法.现代电子技术.2018,(第14期),全文.Xiaoyan Zhao 等.Sound SourceLocalization Based on SRP-PHAT SpatialSpectrum and Deep Neural Network .《Computers, Materials & Continua 》.2020,第253-271页.
-
公开(公告)号:CN110133572B
公开(公告)日:2022-08-26
申请号:CN201910421932.6
申请日:2019-05-21
Applicant: 南京工程学院 , 江苏第二师范学院(江苏省教育科学研究院)
Abstract: 本发明公开了一种基于Gammatone滤波器和直方图的多声源定位方法,用传声器阵列采集声源信号,通过Gammatone滤波器组获得子带信号,做分帧和加窗处理,转换至频域,计算可控响应功率值,绘制直方图,统计主峰方位和次峰方位的数量,估计主次声源方位。本发明在频域相互交叠而不分隔,避免相位缠绕,多个频率分量的空间谱的平均效应抑制了旁瓣,使主瓣突出,阵元间距不严格限于半波长,无需多帧信息,也无需假定声源在连续多帧内静止不动,实现了实时多声源定位,用直方图融合同一帧内的所有子带信息,作为方位估计的判决量,简单易操作,计算量低,显著提高了主声源和次声源的定位成功率,尤其次声源的定位成功率提升更为明显。
-
公开(公告)号:CN114895245A
公开(公告)日:2022-08-12
申请号:CN202210427289.X
申请日:2022-04-22
Applicant: 南京工程学院
Abstract: 本发明公开了一种麦克风阵列声源定位方法、装置及存储介质,所述方法包括获取测试信号;将所述测试信号进行预处理,得到单帧测试信号;提取所述单帧测试信号的空间定位线索,将其作为测试样本;将所述测试样本输入预先构建并训练完成的CRN模型中进行测试,获取测试信号属于每个方位角的概率,其中,取概率最大的方位作为该帧信号的方位角估计值,本发明具有较强的鲁棒性和空间信息表征能力,采用卷积残差网络构建空间定位线索和声源方位之间的映射关系,该定位模型可加速流通网络中的特征,减少了特征丢失,降低训练难度,本发明算法显著提高了复杂声学环境下的定位性能,并且对声源空间结构、混响和噪声都具有较好的泛化能力。
-
公开(公告)号:CN112966649B
公开(公告)日:2022-06-03
申请号:CN202110319464.9
申请日:2021-03-25
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于核扩展字典稀疏表示的遮挡人脸识别方法,包括步骤(S1)):构建训练样本集X;步骤(S2):构建标准样本集N;步骤(S3):构建测试样本集Y;步骤(S4):构建训练样本集X的遮挡字典D1和测试样本集Y的遮挡字典D2,得到混合完备遮挡字典D;步骤(S5):根据混合完备遮挡字典D,采用SRC模型对待测样本进行线性稀疏表示分类,进行该待测样本的遮挡人脸识别。本发明用来消除样本字典中像素冗余信息,获取更具判别性和表征性的字典,使样本字典中仅包含人脸结构特征,而不含有像素冗余信息和干扰信息,并使遮挡字典中仅包含训练样本和测试样本的遮挡信息,而无人脸结构特征,两者相结合,以提高遮挡人脸识别的准确性。
-
-
-
-
-
-
-
-
-