基于多种特征融合的语音篡改检测方法

    公开(公告)号:CN110853668B

    公开(公告)日:2022-02-01

    申请号:CN201910845466.4

    申请日:2019-09-06

    Abstract: 本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,包括以下步骤:步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;步骤S2、对每组语音数据帧提取多维特征;步骤S3、构建基于Attention‑RNN的模型作为分类器;步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器,从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异,将多种特征相结合,语音特征挖掘更加丰富,利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。

    基于眼动数据分析的异常情绪识别方法

    公开(公告)号:CN109199412B

    公开(公告)日:2021-11-09

    申请号:CN201811135081.0

    申请日:2018-09-28

    Abstract: 本发明公开了一种基于眼动数据分析的异常情绪识别方法,包括以下步骤,拍摄多个受测者的眼动视频样本,并提取各受测者对应的眼动视频样本内的32维眼动特征;对多个受测者的32维眼动特征的数据进行异常分析,并将异常的样本数据归为异常情绪类别,将非异常的样本数据归为非异常特征样本;基于非异常特征样本,从32维眼动特征中提取6维有效眼动特征;基于提取的6维有效眼动特征,输入训练好的支撑向量机模型,从而识别具有异常情绪的样本。本发明基于眼动数据分析引入的异常数据处理机制,大大提高了算法效率;并采用特征选择方法,降低了特征维度,在改善训练时间的同时,有效提高类似犯罪知情者的异常情绪识别。

    基于网络模型融合的声场景分类方法

    公开(公告)号:CN110600054B

    公开(公告)日:2021-09-21

    申请号:CN201910845467.9

    申请日:2019-09-06

    Abstract: 本发明公开了一种基于网络模型融合的声场景分类方法,并通过声道分离方式和音频切割等方式构造出多种不同的输入特征,提取音频信号的伽马通滤波器倒谱系数、梅尔频谱特征及其一阶和二阶差分作为输入特征,分别训练对应的多种不同的卷积神经网络模型,最后采用支撑向量机堆叠方法实现最终的融合模型。本发明采用声道分离和音频切割等方式提取出识别性强的音频输入特征,构造了单双两种通道的卷积神经网络,最终生成独特的模型融合结构,能够获得更加丰富与立体的信息,有效提高了不同的声场景分类识别率和鲁棒性,具有良好的应用前景。

    一种面向免验配助听器的参数自调节方法

    公开(公告)号:CN113411733A

    公开(公告)日:2021-09-17

    申请号:CN202110679746.X

    申请日:2021-06-18

    Abstract: 本发明公开了一种面向免验配助听器的参数自调节方法,包括以下步骤:步骤一:确定10组参数[a1,b1,a2,b2,r,s,t]1~10;步骤二:根据患者在中心频率CF处的听力损失,分别计算10组参数对应的内/外毛细胞听力损失,正常耳和患耳的最大增益和补偿系数;步骤三:将输入语音xin分帧加窗,并计算每帧信号的能量谱E(k);步骤四:计算10组参数对应的补偿增益;步骤五:将步骤四计算得出的补偿增益作用在信号谱上,获得补偿后的10组语音信号;步骤六:计算10组语音信号的适应度,并重新生成10组参数。该面向免验配助听器的参数自调节方法根据耳蜗听损模型建立响度补偿模型,同时基于智能算法自适应调节参数,具有响度补偿效果好且调配方便的优点。

    基于多头注意力机制的语音情感识别方法

    公开(公告)号:CN112185423A

    公开(公告)日:2021-01-05

    申请号:CN202011041520.9

    申请日:2020-09-28

    Abstract: 本发明公开了一种基于多头注意力机制的语音情感识别方法,包括如下步骤:从原始语音数据中提取具有时序信息的语音特征;建立具有处理时序能力的LSTM模型;用多头注意力对LSTM模型的输出在时间维度和特征维度上分别进行注意力加权,区分不同时间片段内情感的饱和度以及不同特征对情感的识别能力;将时间维度和特征维度分别加权后的输出输入全连接层和softmax层得到语音情感类别;用已知的原始语音数据样本训练情感识别模型,并对识别性能进行评测;将未知的原始语音数据样本输入训练好的情感识别模型,输出对应的语音情感类别。本发明通过多头注意力机制来强化LSTM模型的输出,以提高语音情感识别性能,具有良好的应用前景。

    面向免验配助听器的语音质量自评估方法

    公开(公告)号:CN111968677A

    公开(公告)日:2020-11-20

    申请号:CN202010854269.1

    申请日:2020-08-21

    Abstract: 本发明公开了一种面向免验配助听器的语音质量自评估方法,包括:构建并训练语音质量自评估网络:待测语音通过卷积神经网络提取并输出待测语音的帧级特征;待测语音的帧级特征通过循环神经网络得到并输出待测语音的段级特征;待测语音的段级特征输入至线性映射模型和Softmax分类器,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。本发明公开了一种面向免验配助听器的语音质量自评估方法,将卷积神经网络、循环神经网络和Softmax分类器有机地结合成一个整体,结合卷积神经网络的特征挖掘能力和循环神经网络的时序建模能力,提高无参考语音质量客观评价方法准确度,大大简化了处理过程。

    一种图像去雾方法
    87.
    发明公开

    公开(公告)号:CN111127340A

    公开(公告)日:2020-05-08

    申请号:CN201911234421.X

    申请日:2019-12-05

    Abstract: 本发明公开了一种图像去雾方法,首先通过图像采集设备获取一幅室外有雾图像I,将其分离出RGB三通道值;然后对G通道进行直方图均衡化,确定滤波系数并对R、B通道再进行均衡化;同时将RGB三个通道的独立图像经过傅里叶变换到频域,经过巴特沃斯高通滤波器,得到滤波后的图像后经过傅里叶反变换;之后得到的均衡化后的图像和滤波后的图像相加,得到去雾图像并计算灰度值;最后改变滤波器参数知道输出去雾图像的灰度熵最大,即为最后结果。本发明克服了传统时域直方图均衡化后图像细节损失的缺点,图像的信息熵增加,图像质量更好,去雾效率高,易于算法的硬件实现。

    基于多种特征融合的语音篡改检测方法

    公开(公告)号:CN110853668A

    公开(公告)日:2020-02-28

    申请号:CN201910845466.4

    申请日:2019-09-06

    Abstract: 本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,包括以下步骤:步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;步骤S2、对每组语音数据帧提取多维特征;步骤S3、构建基于Attention-RNN的模型作为分类器;步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器,从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异,将多种特征相结合,语音特征挖掘更加丰富,利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。

    基于改进神经网络的音频篡改识别算法

    公开(公告)号:CN110853656A

    公开(公告)日:2020-02-28

    申请号:CN201910845468.3

    申请日:2019-09-06

    Abstract: 本发明公开了一种基于改进神经网络的音频篡改识别算法,其将任意大小的谱图池化成固定长度的谱图表示的CNNs结构和具有注意力机制的LSTM结构,将信号的梅尔谱图和帧级特征引入到语音篡改识别算法中,综合了音频信号的频谱和时序信息;通过在CNNs结构中加入改进池化层,使得CNNs可以输入任意尺寸谱图,解决音频长度不固定问题;增加注意力机制挖掘高层特征的权重比例,最终得到优质的音频特征;并利用数据融合理论进行决策融合的算法;提高音频篡改识别的识别率和模型的鲁棒性。本发明能够有效识别出音频篡改与否,克服了传统音频篡改识别率较低的问题。

    基于自注意多核最大均值差异的迁移学习语音增强方法

    公开(公告)号:CN110111803A

    公开(公告)日:2019-08-09

    申请号:CN201910385769.2

    申请日:2019-05-09

    Abstract: 本发明公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法,包括从原始语音中提取GFCC特征,并作为深度神经网络的输入特征;利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽,并作为深度神经网络的训练目标;构建基于深层神经网络的语音增强模型;构建自注意多核最大均值差异的迁移学习语音增强模型;训练自注意多核最大均值差异的迁移学习语音增强模型;输入目标域带噪语音的帧级特征,重建增强语音波形。本发明在多核最大均值差异前端添加自注意力算法,通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异,实现对无标签的目标域的迁移学习,提高语音增强性能,具有良好的应用前景。

Patent Agency Ranking