-
公开(公告)号:CN110111803B
公开(公告)日:2021-02-19
申请号:CN201910385769.2
申请日:2019-05-09
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法,包括从原始语音中提取GFCC特征,并作为深度神经网络的输入特征;利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽,并作为深度神经网络的训练目标;构建基于深层神经网络的语音增强模型;构建自注意多核最大均值差异的迁移学习语音增强模型;训练自注意多核最大均值差异的迁移学习语音增强模型;输入目标域带噪语音的帧级特征,重建增强语音波形。本发明在多核最大均值差异前端添加自注意力算法,通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异,实现对无标签的目标域的迁移学习,提高语音增强性能,具有良好的应用前景。
-
公开(公告)号:CN111402929B
公开(公告)日:2022-09-20
申请号:CN202010185119.6
申请日:2020-03-16
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于域不变的小样本语音情感识别方法,包括如下步骤:从数据库提取具有时序信息的语音特征;建立LSTM模型,确定待训练的参数及初值;通过多任务学习同时进行情感识别与数据库分类,采用交叉熵结合加权系数,建立损失函数;在数据库分类任务的梯度更新中采取梯度取反的对抗学习方法;在梯度反向传播过程中,按各数据库样本比例对共享层进行梯度加权,得到最终的梯度公式;得到训练好的网络参数值;用预训练好的共享层参数来初始化新的模型,并在未知数据集上重训练,然后用重训练的模型对小样本测试集进行测试验证。本发明利用已知的情感数据集为未知小样本数据提供预训练,提高未知小样本数据库的情感识别性能。
-
公开(公告)号:CN109243493B
公开(公告)日:2022-09-16
申请号:CN201811273025.3
申请日:2018-10-30
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于改进长短时记忆网络的婴儿哭声情感识别方法,将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,并针对不同长度的时序相关特征建立长短时记忆网络的处理算法;然后,将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门上,实验结果显示,该方法不但能大量减少模型参数,而且在实录的婴儿情感数据库上体现出显著的识别性能,且识别效率高,具有良好的应用前景。
-
公开(公告)号:CN111402929A
公开(公告)日:2020-07-10
申请号:CN202010185119.6
申请日:2020-03-16
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于域不变的小样本语音情感识别方法,包括如下步骤:从数据库提取具有时序信息的语音特征;建立LSTM模型,确定待训练的参数及初值;通过多任务学习同时进行情感识别与数据库分类,采用交叉熵结合加权系数,建立损失函数;在数据库分类任务的梯度更新中采取梯度取反的对抗学习方法;在梯度反向传播过程中,按各数据库样本比例对共享层进行梯度加权,得到最终的梯度公式;得到训练好的网络参数值;用预训练好的共享层参数来初始化新的模型,并在未知数据集上重训练,然后用重训练的模型对小样本测试集进行测试验证。本发明利用已知的情感数据集为未知小样本数据提供预训练,提高未知小样本数据库的情感识别性能。
-
公开(公告)号:CN109243494B
公开(公告)日:2022-10-11
申请号:CN201811273105.9
申请日:2018-10-30
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于多重注意力机制长短时记忆网络的儿童情感识别方法,将测试集语音进行端点检测且分帧切割,提取时序相关特征;对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法;将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门以及最终输出上;最后,将待测样本输入训练过程中的改进长短时记忆网络,可显著识别出其情感信息,本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。
-
公开(公告)号:CN110111803A
公开(公告)日:2019-08-09
申请号:CN201910385769.2
申请日:2019-05-09
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法,包括从原始语音中提取GFCC特征,并作为深度神经网络的输入特征;利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽,并作为深度神经网络的训练目标;构建基于深层神经网络的语音增强模型;构建自注意多核最大均值差异的迁移学习语音增强模型;训练自注意多核最大均值差异的迁移学习语音增强模型;输入目标域带噪语音的帧级特征,重建增强语音波形。本发明在多核最大均值差异前端添加自注意力算法,通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异,实现对无标签的目标域的迁移学习,提高语音增强性能,具有良好的应用前景。
-
公开(公告)号:CN109243494A
公开(公告)日:2019-01-18
申请号:CN201811273105.9
申请日:2018-10-30
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于多重注意力机制长短时记忆网络的儿童情感识别方法,将测试集语音进行端点检测且分帧切割,提取时序相关特征;对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法;将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门以及最终输出上;最后,将待测样本输入训练过程中的改进长短时记忆网络,可显著识别出其情感信息,本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。
-
公开(公告)号:CN109243493A
公开(公告)日:2019-01-18
申请号:CN201811273025.3
申请日:2018-10-30
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于改进长短时记忆网络的婴儿哭声情感识别方法,将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,并针对不同长度的时序相关特征建立长短时记忆网络的处理算法;然后,将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门上,实验结果显示,该方法不但能大量减少模型参数,而且在实录的婴儿情感数据库上体现出显著的识别性能,且识别效率高,具有良好的应用前景。
-
-
-
-
-
-
-