-
公开(公告)号:CN109151692B
公开(公告)日:2020-09-01
申请号:CN201810767514.8
申请日:2018-07-13
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于深度学习网络的助听器自验配方法,通过构建患者综合信息库,通过对患者和验配过程的深入分析,发现验配过程中有效的策略,从而构建新的智能助听器自验配模型,提高验配效率;引入深度学习网络,通过大量的数据训练,使网络具有人工智能,能根据患者的基本信息快速生成符合患者听损特性的语音信息,同时还能根据患者的评价反馈,自动调节输入增益,大大缩短验配时间,改善用户满意度。
-
公开(公告)号:CN109199412A
公开(公告)日:2019-01-15
申请号:CN201811135081.0
申请日:2018-09-28
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于眼动数据分析的异常情绪识别方法,包括以下步骤,拍摄多个受测者的眼动视频样本,并提取各受测者对应的眼动视频样本内的32维眼动特征;对多个受测者的32维眼动特征的数据进行异常分析,并将异常的样本数据归为异常情绪类别,将非异常的样本数据归为非异常特征样本;基于非异常特征样本,从32维眼动特征中提取6维有效眼动特征;基于提取的6维有效眼动特征,输入训练好的支撑向量机模型,从而识别具有异常情绪的样本。本发明基于眼动数据分析引入的异常数据处理机制,大大提高了算法效率;并采用特征选择方法,降低了特征维度,在改善训练时间的同时,有效提高类似犯罪知情者的异常情绪识别。
-
公开(公告)号:CN109199411A
公开(公告)日:2019-01-15
申请号:CN201811135018.7
申请日:2018-09-28
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于模型融合的案件知情者识别方法,包括以下步骤,提取各个被测试者在观看单一图片时的32维眼动特征;基于32维眼动特征训练支撑向量机模型A,来识别每个被测试者在单一图片时的言语置信度,并输出每个被测试者在单一图片时的概率f1(xi)和f2(xi);提取各个被测试者在观看组合图片时的110维眼动特征;基于110维眼动特征训练支撑向量机模型B,来识别每个被测试者在组合图片时的言语置信度,并输出每个被测试者在组合图片时的概率g1(xi)和g2(xi);运用乘法规则,融合支撑向量机模型A和B的分类器概率,得到联合概率,取各个被测试者的概率最大的类别为最后的决策结果。本发明可以有效抑制反测谎手段,提高了算法效率。
-
公开(公告)号:CN119446166A
公开(公告)日:2025-02-14
申请号:CN202411674055.0
申请日:2024-11-21
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于融合空间特征的多通道语音增强方法,首先从带噪多通道语音中分别提取多通道复频谱特征和融合空间特征,再将提取的多通道复频谱特征和融合空间特征输入深度神经网络进行处理并设定处理目标为理想复值比率掩蔽,再构建基于复卷积编码器解码器结构的深度复卷积循环语音增强网络,再利用深度复卷积循环语音增强网络对多通道复频谱特征和融合空间特征进行处理,输出预测复值比率掩蔽。本发明充分整合光谱信息、方向特征、通道间特征和相关系数特征,并对动态声源进行空间建模,使得网络对于语音信号的理解和处理能力远超传统方法,能够有效应对复杂多变的语音场景,有效地提升静态场景和动态场景下的语音增强效果。
-
公开(公告)号:CN116453547A
公开(公告)日:2023-07-18
申请号:CN202210620231.7
申请日:2022-06-02
Applicant: 南京工程学院
IPC: G10L25/60 , G10L25/30 , H04R25/00 , G06F18/2415 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明公开基于听损分类的助听器语音质量自评价方法,包括构建由帧级特征提取网络、听损分类子网络、质量预测子网络构成的语音质量自评估网络;基于助听器处理后信号计算浅层特征,利用帧级特征提取网络学习失真信号的深层表示,从而获得帧级特征;形状重置后的帧级特征分别通过听损分类子网络和质量预测子网络得到失真语音补偿前听力损失程度的分类情况和质量评分的预测值。本发明依照多任务训练策略,将预测失真信号的质量评分作为主任务,预测失真信号的质量分类作为辅任务,通过训练时损失函数的权重因子调节主、辅任务在网络中的重要程度,提高了无参考助听器语音质量评价方法的准确性,简化了处理过程。
-
公开(公告)号:CN110853668B
公开(公告)日:2022-02-01
申请号:CN201910845466.4
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,包括以下步骤:步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;步骤S2、对每组语音数据帧提取多维特征;步骤S3、构建基于Attention‑RNN的模型作为分类器;步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器,从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异,将多种特征相结合,语音特征挖掘更加丰富,利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。
-
公开(公告)号:CN109199412B
公开(公告)日:2021-11-09
申请号:CN201811135081.0
申请日:2018-09-28
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于眼动数据分析的异常情绪识别方法,包括以下步骤,拍摄多个受测者的眼动视频样本,并提取各受测者对应的眼动视频样本内的32维眼动特征;对多个受测者的32维眼动特征的数据进行异常分析,并将异常的样本数据归为异常情绪类别,将非异常的样本数据归为非异常特征样本;基于非异常特征样本,从32维眼动特征中提取6维有效眼动特征;基于提取的6维有效眼动特征,输入训练好的支撑向量机模型,从而识别具有异常情绪的样本。本发明基于眼动数据分析引入的异常数据处理机制,大大提高了算法效率;并采用特征选择方法,降低了特征维度,在改善训练时间的同时,有效提高类似犯罪知情者的异常情绪识别。
-
公开(公告)号:CN110600054B
公开(公告)日:2021-09-21
申请号:CN201910845467.9
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于网络模型融合的声场景分类方法,并通过声道分离方式和音频切割等方式构造出多种不同的输入特征,提取音频信号的伽马通滤波器倒谱系数、梅尔频谱特征及其一阶和二阶差分作为输入特征,分别训练对应的多种不同的卷积神经网络模型,最后采用支撑向量机堆叠方法实现最终的融合模型。本发明采用声道分离和音频切割等方式提取出识别性强的音频输入特征,构造了单双两种通道的卷积神经网络,最终生成独特的模型融合结构,能够获得更加丰富与立体的信息,有效提高了不同的声场景分类识别率和鲁棒性,具有良好的应用前景。
-
公开(公告)号:CN113411733A
公开(公告)日:2021-09-17
申请号:CN202110679746.X
申请日:2021-06-18
Applicant: 南京工程学院
IPC: H04R25/00
Abstract: 本发明公开了一种面向免验配助听器的参数自调节方法,包括以下步骤:步骤一:确定10组参数[a1,b1,a2,b2,r,s,t]1~10;步骤二:根据患者在中心频率CF处的听力损失,分别计算10组参数对应的内/外毛细胞听力损失,正常耳和患耳的最大增益和补偿系数;步骤三:将输入语音xin分帧加窗,并计算每帧信号的能量谱E(k);步骤四:计算10组参数对应的补偿增益;步骤五:将步骤四计算得出的补偿增益作用在信号谱上,获得补偿后的10组语音信号;步骤六:计算10组语音信号的适应度,并重新生成10组参数。该面向免验配助听器的参数自调节方法根据耳蜗听损模型建立响度补偿模型,同时基于智能算法自适应调节参数,具有响度补偿效果好且调配方便的优点。
-
公开(公告)号:CN111968677A
公开(公告)日:2020-11-20
申请号:CN202010854269.1
申请日:2020-08-21
Applicant: 南京工程学院
Abstract: 本发明公开了一种面向免验配助听器的语音质量自评估方法,包括:构建并训练语音质量自评估网络:待测语音通过卷积神经网络提取并输出待测语音的帧级特征;待测语音的帧级特征通过循环神经网络得到并输出待测语音的段级特征;待测语音的段级特征输入至线性映射模型和Softmax分类器,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。本发明公开了一种面向免验配助听器的语音质量自评估方法,将卷积神经网络、循环神经网络和Softmax分类器有机地结合成一个整体,结合卷积神经网络的特征挖掘能力和循环神经网络的时序建模能力,提高无参考语音质量客观评价方法准确度,大大简化了处理过程。
-
-
-
-
-
-
-
-
-