-
公开(公告)号:CN111127340B
公开(公告)日:2023-01-24
申请号:CN201911234421.X
申请日:2019-12-05
Applicant: 南京工程学院
Abstract: 本发明公开了一种图像去雾方法,首先通过图像采集设备获取一幅室外有雾图像I,将其分离出RGB三通道值;然后对G通道进行直方图均衡化,确定滤波系数并对R、B通道再进行均衡化;同时将RGB三个通道的独立图像经过傅里叶变换到频域,经过巴特沃斯高通滤波器,得到滤波后的图像后经过傅里叶反变换;之后得到的均衡化后的图像和滤波后的图像相加,得到去雾图像并计算灰度值;最后改变滤波器参数知道输出去雾图像的灰度熵最大,即为最后结果。本发明克服了传统时域直方图均衡化后图像细节损失的缺点,图像的信息熵增加,图像质量更好,去雾效率高,易于算法的硬件实现。
-
公开(公告)号:CN109147808B
公开(公告)日:2022-10-21
申请号:CN201810767532.6
申请日:2018-07-13
Applicant: 南京工程学院
IPC: G10L21/02 , G10L21/0208 , H04R25/00 , G06N3/04
Abstract: 本发明公开了一种言语增强助听方法,包括以下步骤,步骤(A),多通道语音分解;步骤(B),子带增益调整;步骤(C),言语增强助听网络构建;步骤(D),语音补偿输出:将步骤(B)中进行增益调整后的子带信号输入步骤(C)模型训练后的深度学习网络中,生出补偿后的语音信号,并进行输出。本发明的言语增强助听方法,可以改善传统方法无法抑制与语音同分布噪声的问题,还解决现有技术中言语增强助听方法言语补偿的鲁棒性差、言语补偿效率低下,难以满足患者需求的技术问题,具有良好的应用前景。
-
公开(公告)号:CN109243494B
公开(公告)日:2022-10-11
申请号:CN201811273105.9
申请日:2018-10-30
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于多重注意力机制长短时记忆网络的儿童情感识别方法,将测试集语音进行端点检测且分帧切割,提取时序相关特征;对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法;将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门以及最终输出上;最后,将待测样本输入训练过程中的改进长短时记忆网络,可显著识别出其情感信息,本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。
-
公开(公告)号:CN114067819A
公开(公告)日:2022-02-18
申请号:CN202111385676.3
申请日:2021-11-22
Applicant: 南京工程学院
Abstract: 本发明公开了基于跨层相似性知识蒸馏的语音增强方法,包括提取深度神经网络的输入特征,再构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,接着根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型,再利用预训练好的教师模型对学生模型进行蒸馏;本发明提出了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,能够有效的提升低复杂度语音增强模型的效果,具有良好的应用前景。
-
公开(公告)号:CN110853656B
公开(公告)日:2022-02-01
申请号:CN201910845468.3
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于改进神经网络的音频篡改识别算法,其将任意大小的谱图池化成固定长度的谱图表示的CNNs结构和具有注意力机制的LSTM结构,将信号的梅尔谱图和帧级特征引入到语音篡改识别算法中,综合了音频信号的频谱和时序信息;通过在CNNs结构中加入改进池化层,使得CNNs可以输入任意尺寸谱图,解决音频长度不固定问题;增加注意力机制挖掘高层特征的权重比例,最终得到优质的音频特征;并利用数据融合理论进行决策融合的算法;提高音频篡改识别的识别率和模型的鲁棒性。本发明能够有效识别出音频篡改与否,克服了传统音频篡改识别率较低的问题。
-
公开(公告)号:CN112686295B
公开(公告)日:2021-08-24
申请号:CN202011587016.9
申请日:2020-12-28
Applicant: 南京工程学院
IPC: G06K9/62
Abstract: 本发明公开了一种个性化听力损失建模方法,步骤(A)、获取大量听障患者样本的听力图和对应的助听器插入增益;步骤(B)、将听障患者样本按照听损程度分为中度听损、重度听损和极重度听损三类;步骤(C)、针对分类后的中度听损、重度听损和极重度听损的听障患者样本,将每类听障患者样本的助听器插入增益分别进行分类;步骤(D)、计算各类别下的助听器插入增益对应的听力图曲线的平均值,用来表征各类个体听力损失;步骤(E)、对于待分类的听力图,计算其与每类个体听力损失的距离并按照其与每类个体听力损失的最小距离进行归类。可以使助听器验配尽可能少的依赖听力专家,弥补现有助听器技术单纯依靠听力图进行听力损失分类的不足。
-
公开(公告)号:CN112686295A
公开(公告)日:2021-04-20
申请号:CN202011587016.9
申请日:2020-12-28
Applicant: 南京工程学院
IPC: G06K9/62
Abstract: 本发明公开了一种个性化听力损失建模方法,步骤(A)、获取大量听障患者样本的听力图和对应的助听器插入增益;步骤(B)、将听障患者样本按照听损程度分为中度听损、重度听损和极重度听损三类;步骤(C)、针对分类后的中度听损、重度听损和极重度听损的听障患者样本,将每类听障患者样本的助听器插入增益分别进行分类;步骤(D)、计算各类别下的助听器插入增益对应的听力图曲线的平均值,用来表征各类个体听力损失;步骤(E)、对于待分类的听力图,计算其与每类个体听力损失的距离并按照其与每类个体听力损失的最小距离进行归类。可以使助听器验配尽可能少的依赖听力专家,弥补现有助听器技术单纯依靠听力图进行听力损失分类的不足。
-
公开(公告)号:CN109199411B
公开(公告)日:2021-04-09
申请号:CN201811135018.7
申请日:2018-09-28
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于模型融合的案件知情者识别方法,包括以下步骤,提取各个被测试者在观看单一图片时的32维眼动特征;基于32维眼动特征训练支撑向量机模型A,来识别每个被测试者在单一图片时的言语置信度,并输出每个被测试者在单一图片时的概率f1(xi)和f2(xi);提取各个被测试者在观看组合图片时的110维眼动特征;基于110维眼动特征训练支撑向量机模型B,来识别每个被测试者在组合图片时的言语置信度,并输出每个被测试者在组合图片时的概率g1(xi)和g2(xi);运用乘法规则,融合支撑向量机模型A和B的分类器概率,得到联合概率,取各个被测试者的概率最大的类别为最后的决策结果。本发明可以有效抑制反测谎手段,提高了算法效率。
-
公开(公告)号:CN112330713A
公开(公告)日:2021-02-05
申请号:CN202011346536.0
申请日:2020-11-26
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,包括:使用图像采集设备从现实环境中采集唇部运动图像序列,作为深度神经网络的输入特征;构建基于深度学习的视觉模态语音端点检测方法,在低信噪比条件下确认语音段位置;构建基于三维卷积‑残差网络‑双向GRU结构的深度学习模型作为基线模型;在基线模型的基础上构建基于时空信息特征的唇语识别模型;利用交叉熵损失训练网络模型,根据训练后的唇语识别模型识别出说话内容。本发明通过时空信息反馈来捕捉唇语图像的细粒度特征和时域关键帧,从而提高对复杂环境中唇语特征的适应性,提高唇语识别性能,改善了重度听障患者的语言理解能力,具有良好的应用前景。
-
公开(公告)号:CN111968666A
公开(公告)日:2020-11-20
申请号:CN202010847510.8
申请日:2020-08-20
Applicant: 南京工程学院
IPC: G10L21/0216 , G10L21/0232 , G10L25/03 , G10L25/30 , G06N3/04 , G06N3/08 , H04R25/00
Abstract: 本发明公开了一种基于深度域自适应网络的助听器语音增强方法,包括:分别从带噪语音和干净语音中提取帧级对数功率谱特征;构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型;在基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入域适配层和相对鉴别器;利用域对抗性损失训练迁移学习语音增强模型;在增强阶段,根据训练后的深度域自适应迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形。本发明通过域对抗性训练来激励特征编码器生成域不变性特征,从而提高语音增强模型对未见噪声的适应性。
-
-
-
-
-
-
-
-
-