-
公开(公告)号:CN111599376B
公开(公告)日:2023-02-14
申请号:CN202010483079.3
申请日:2020-06-01
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于空洞卷积循环神经网络的声音事件检测方法,步骤如下:提取各样本的对数梅尔谱特征;搭建空洞卷积循环神经网络,包括卷积神经网络、双向长短时记忆神经网络和Sigmoid输出层;采用从训练样本提取的对数梅尔谱特征作为输入,训练空洞卷积循环神经网络;采用已训练的空洞卷积循环神经网络辨识测试样本中的声音事件,得到声音事件检测结果。本方法将空洞卷积引入卷积神经网络并将卷积神经网络与循环神经网络进行优化组合,得到空洞卷积循环神经网络。与传统卷积神经网络相比,在网络参数集大小相同的情况下,空洞卷积循环神经网络具有更大的感受野,能更有效利用音频样本的上下文信息,获得更好的声音事件检测结果。
-
公开(公告)号:CN111161744A
公开(公告)日:2020-05-15
申请号:CN201911239006.3
申请日:2019-12-06
Applicant: 华南理工大学
Abstract: 本发明公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,步骤如下:对聚类语音样本进行预处理,提取I-vector特征,训练卷积自编码网络并提取深度表征特征;根据深度表征特征构造初始类,得到类别数和初始类标签;在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架,Softmax层用于估计说话人类别;将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数,迭代更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。本发明能同时得到优化的深度表征特征与说话人聚类结果,获得比传统方法更优的说话人聚类效果。
-
公开(公告)号:CN111599376A
公开(公告)日:2020-08-28
申请号:CN202010483079.3
申请日:2020-06-01
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于空洞卷积循环神经网络的声音事件检测方法,步骤如下:提取各样本的对数梅尔谱特征;搭建空洞卷积循环神经网络,包括卷积神经网络、双向长短时记忆神经网络和Sigmoid输出层;采用从训练样本提取的对数梅尔谱特征作为输入,训练空洞卷积循环神经网络;采用已训练的空洞卷积循环神经网络辨识测试样本中的声音事件,得到声音事件检测结果。本方法将空洞卷积引入卷积神经网络并将卷积神经网络与循环神经网络进行优化组合,得到空洞卷积循环神经网络。与传统卷积神经网络相比,在网络参数集大小相同的情况下,空洞卷积循环神经网络具有更大的感受野,能更有效利用音频样本的上下文信息,获得更好的声音事件检测结果。
-
公开(公告)号:CN109859771A
公开(公告)日:2019-06-07
申请号:CN201910033838.3
申请日:2019-01-15
Applicant: 华南理工大学
Abstract: 本发明公开了一种联合优化深层变换特征与聚类过程的声场景聚类方法,步骤如下:a、提取各样本的对数梅尔谱特征并作为一个初始类,初始化一个卷积神经网络;b、将各样本的对数梅尔谱特征输入卷积神经网络,提取深层变换特征;c、采用凝聚分层聚类算法合并最相似的两个类,得到新的类标签及样本并用于更新卷积神经网络,类数减一,再采用更新后的卷积神经网络将各样本的对数梅尔谱特征变换为深层变换特征;d、如果当前类数等于真实类数,则停止聚类,得到联合优化的声场景聚类结果和卷积神经网络,否则跳到第c步。本方法的深层变换特征提取与聚类交替进行,得到联合优化结果,与传统聚类方法相比性能更优;与传统分类方法相比更具普适性。
-
公开(公告)号:CN109903777B
公开(公告)日:2020-10-27
申请号:CN201910033836.4
申请日:2019-01-15
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,包括以下步骤:对各元音语音样本进行预处理:预加重、加窗分帧;从每个元音语音样本提取梅尔频率倒谱系数特征;为异常说话人和正常说话人的每个元音构建一个高斯混合模型;将各元音高斯混合模型的均值向量拼接成一个行矢量,计算元音谱空间衰减率;如果说话人测试样本的所有元音谱空间衰减率均值小于设定的阈值,则该说话人为异常说话人,否则为正常说话人。本发明利用异常说话人与正常说话人的元音谱空间分布特性差异,在特征层面区分异常说话人与正常说话人,无需构建复杂分类器,与传统区分方法相比,速度更快。
-
公开(公告)号:CN109978034A
公开(公告)日:2019-07-05
申请号:CN201910201430.2
申请日:2019-03-18
Applicant: 华南理工大学
IPC: G06K9/62 , G10L21/0208 , G10L25/03 , G10L25/27 , G10L25/45
Abstract: 本发明公开了一种基于数据增强的声场景辨识方法,包括下列步骤:首先采集并标注不同声场景的音频样本;然后预处理,对音频样本进行预加重、分帧和加窗处理;接着进行数据增强,提取各音频样本的谐波源和冲击源,得到更充足的音频样本,从音频样本及其谐波源和冲击源中提取对数梅尔滤波器组特征,再将上述三个特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造更丰富的训练样本;最后将上述三通道高维特征输入到Xception网络进行判决,辨识出各音频样本所对应的声场景。本发明的数据增强方法可以有效提高Xception网络分类器的泛化能力,稳定网络的训练过程。在对声场景进行辨识时,本方法可取得更优的辨识效果。
-
公开(公告)号:CN109903777A
公开(公告)日:2019-06-18
申请号:CN201910033836.4
申请日:2019-01-15
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,包括以下步骤:对各元音语音样本进行预处理:预加重、加窗分帧;从每个元音语音样本提取梅尔频率倒谱系数特征;为异常说话人和正常说话人的每个元音构建一个高斯混合模型;将各元音高斯混合模型的均值向量拼接成一个行矢量,计算元音谱空间衰减率;如果说话人测试样本的所有元音谱空间衰减率均值小于设定的阈值,则该说话人为异常说话人,否则为正常说话人。本发明利用异常说话人与正常说话人的元音谱空间分布特性差异,在特征层面区分异常说话人与正常说话人,无需构建复杂分类器,与传统区分方法相比,速度更快。
-
公开(公告)号:CN111161744B
公开(公告)日:2023-04-28
申请号:CN201911239006.3
申请日:2019-12-06
Applicant: 华南理工大学
IPC: G10L17/02 , G10L17/18 , G10L17/04 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,步骤如下:对聚类语音样本进行预处理,提取I‑vector特征,训练卷积自编码网络并提取深度表征特征;根据深度表征特征构造初始类,得到类别数和初始类标签;在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架,Softmax层用于估计说话人类别;将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数,迭代更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。本发明能同时得到优化的深度表征特征与说话人聚类结果,获得比传统方法更优的说话人聚类效果。
-
公开(公告)号:CN109859771B
公开(公告)日:2021-03-30
申请号:CN201910033838.3
申请日:2019-01-15
Applicant: 华南理工大学
Abstract: 本发明公开了一种联合优化深层变换特征与聚类过程的声场景聚类方法,步骤如下:a、提取各样本的对数梅尔谱特征并作为一个初始类,初始化一个卷积神经网络;b、将各样本的对数梅尔谱特征输入卷积神经网络,提取深层变换特征;c、采用凝聚分层聚类算法合并最相似的两个类,得到新的类标签及样本并用于更新卷积神经网络,类数减一,再采用更新后的卷积神经网络将各样本的对数梅尔谱特征变换为深层变换特征;d、如果当前类数等于真实类数,则停止聚类,得到联合优化的声场景聚类结果和卷积神经网络,否则跳到第c步。本方法的深层变换特征提取与聚类交替进行,得到联合优化结果,与传统聚类方法相比性能更优;与传统分类方法相比更具普适性。
-
公开(公告)号:CN109978034B
公开(公告)日:2020-12-22
申请号:CN201910201430.2
申请日:2019-03-18
Applicant: 华南理工大学
IPC: G06K9/62 , G10L21/0208 , G10L25/03 , G10L25/27 , G10L25/45
Abstract: 本发明公开了一种基于数据增强的声场景辨识方法,包括下列步骤:首先采集并标注不同声场景的音频样本;然后预处理,对音频样本进行预加重、分帧和加窗处理;接着进行数据增强,提取各音频样本的谐波源和冲击源,得到更充足的音频样本,从音频样本及其谐波源和冲击源中提取对数梅尔滤波器组特征,再将上述三个特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造更丰富的训练样本;最后将上述三通道高维特征输入到Xception网络进行判决,辨识出各音频样本所对应的声场景。本发明的数据增强方法可以有效提高Xception网络分类器的泛化能力,稳定网络的训练过程。在对声场景进行辨识时,本方法可取得更优的辨识效果。
-
-
-
-
-
-
-
-
-