-
公开(公告)号:CN110728991B
公开(公告)日:2022-03-01
申请号:CN201910841092.9
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种改进的录音设备识别算法,构建模型一和模型二,模型一包括双向门循环神经网络层、单向门循环神经网络层和注意力层,模型二包括卷积层、跳跃连接层和全局平均池化层,对待检测的音频信号进行分帧和预处理,提取音频信号的多维帧级特征作为模型一的输入、梅尔频谱特征作为模型二的输入,并将模型一和模型二的输出特征进行拼接融合,分类并得出识别结果。本发明的识别算法保留了音频信号的时序特性,通过增加注意力机制、跳跃连接结构和隐藏单元拼接方法等方式,最终得到优质的录音设备相关的特征参数,提高了录音设备的识别效果和模型的鲁棒性。
-
公开(公告)号:CN110853656B
公开(公告)日:2022-02-01
申请号:CN201910845468.3
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于改进神经网络的音频篡改识别算法,其将任意大小的谱图池化成固定长度的谱图表示的CNNs结构和具有注意力机制的LSTM结构,将信号的梅尔谱图和帧级特征引入到语音篡改识别算法中,综合了音频信号的频谱和时序信息;通过在CNNs结构中加入改进池化层,使得CNNs可以输入任意尺寸谱图,解决音频长度不固定问题;增加注意力机制挖掘高层特征的权重比例,最终得到优质的音频特征;并利用数据融合理论进行决策融合的算法;提高音频篡改识别的识别率和模型的鲁棒性。本发明能够有效识别出音频篡改与否,克服了传统音频篡改识别率较低的问题。
-
公开(公告)号:CN110728991A
公开(公告)日:2020-01-24
申请号:CN201910841092.9
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种改进的录音设备识别算法,构建模型一和模型二,模型一包括双向门循环神经网络层、单向门循环神经网络层和注意力层,模型二包括卷积层、跳跃连接层和全局平均池化层,对待检测的音频信号进行分帧和预处理,提取音频信号的多维帧级特征作为模型一的输入、梅尔频谱特征作为模型二的输入,并将模型一和模型二的输出特征进行拼接融合,分类并得出识别结果。本发明的识别算法保留了音频信号的时序特性,通过增加注意力机制、跳跃连接结构和隐藏单元拼接方法等方式,最终得到优质的录音设备相关的特征参数,提高了录音设备的识别效果和模型的鲁棒性。
-
公开(公告)号:CN110853668B
公开(公告)日:2022-02-01
申请号:CN201910845466.4
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,包括以下步骤:步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;步骤S2、对每组语音数据帧提取多维特征;步骤S3、构建基于Attention‑RNN的模型作为分类器;步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器,从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异,将多种特征相结合,语音特征挖掘更加丰富,利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。
-
公开(公告)号:CN110853668A
公开(公告)日:2020-02-28
申请号:CN201910845466.4
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,包括以下步骤:步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;步骤S2、对每组语音数据帧提取多维特征;步骤S3、构建基于Attention-RNN的模型作为分类器;步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器,从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异,将多种特征相结合,语音特征挖掘更加丰富,利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。
-
公开(公告)号:CN110853656A
公开(公告)日:2020-02-28
申请号:CN201910845468.3
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于改进神经网络的音频篡改识别算法,其将任意大小的谱图池化成固定长度的谱图表示的CNNs结构和具有注意力机制的LSTM结构,将信号的梅尔谱图和帧级特征引入到语音篡改识别算法中,综合了音频信号的频谱和时序信息;通过在CNNs结构中加入改进池化层,使得CNNs可以输入任意尺寸谱图,解决音频长度不固定问题;增加注意力机制挖掘高层特征的权重比例,最终得到优质的音频特征;并利用数据融合理论进行决策融合的算法;提高音频篡改识别的识别率和模型的鲁棒性。本发明能够有效识别出音频篡改与否,克服了传统音频篡改识别率较低的问题。
-
-
-
-
-