基于自蒸馏预训练和元学习微调的远场说话人确认方法

    公开(公告)号:CN116863937A

    公开(公告)日:2023-10-10

    申请号:CN202310689924.6

    申请日:2023-06-12

    Abstract: 本发明公开了一种基于自蒸馏预训练和元学习微调的远场说话人确认方法,过程如下:从近场训练语音提取对数梅尔谱特征作为网络的输入,采用自蒸馏学习方法预训练深度神经网络;接着,将远场训练语音的对数梅尔谱特征作为网络的输入,采用元学习方法微调经过预训练的网络;然后,将注册语音的对数梅尔谱特征输入经过预训练和微调的网络得到变换特征矢量,将测试语音的对数梅尔谱特征输入经过微调和预训练的网络得到变换特征矢量;最后,计算测试语音变换特征矢量与注册语音变换特征矢量之间的距离,判断二者是否来自同一个说话人。本发明方法既提高了网络训练效率,又提升了网络在注册语音与测试语音的录制环境不一致时的说话人确认准确率。

    一种基于原型分类器的完全小样本类别增量音频分类方法

    公开(公告)号:CN117831570A

    公开(公告)日:2024-04-05

    申请号:CN202311755262.4

    申请日:2023-12-19

    Abstract: 本发明公开了一种基于原型分类器的完全小样本类别增量音频分类方法,步骤如下:从输入音频样本提取对数梅尔谱;初始化自注意力卷积神经网络,包括表征提取器、原型分类器和原型自适应模块;基础环节,采用小样本学习和伪增量情境训练方法分别训练表征提取器和原型自适应模块;从基础环节音频类别训练样本提取表征并计算同类别表征均值作为原型并更新原型分类器;在增量环节采用原型自适应模块先获取各增量类原型,然后对所有原型进行自适应调整,再更新原型分类器;测试时,采用所有已知类别测试样本评测模型性能。本发明方法在所有环节都采用小样本学习训练模型,利用较少的训练样本有效解决模型对增量类过拟合和对旧类遗忘的问题。

    基于通道注意力深度可分卷积网络的小样本话者辨认方法

    公开(公告)号:CN113823292B

    公开(公告)日:2023-07-21

    申请号:CN202110954659.0

    申请日:2021-08-19

    Abstract: 本发明公开了一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,步骤如下:从训练语音提取对数梅尔谱特征,训练得到通道注意力深度可分卷积网络;将注册(小样本)语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;将测试语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。本发明方法既减小了网络规模又降低了网络训练难度,有效缓解小样本话者辨认的过拟合问题,获得更满意话者辨认结果。

    一种基于孪生神经网络的短语音说话人匹配方法

    公开(公告)号:CN112951242B

    公开(公告)日:2022-10-25

    申请号:CN202110140928.X

    申请日:2021-02-02

    Abstract: 本发明公开了一种基于孪生神经网络的短语音说话人匹配方法,步骤如下:构造训练样本对;从各样本提取对数梅尔能量谱特征;搭建孪生神经网络,包括依次连接的空洞循环卷积子网络、说话人表征层和Sigmoid输出模块;将从各训练样本对提取的对数梅尔能量谱特征输入空洞循环卷积子网络以得到样本对的两个说话人表征矢量;拼接样本对的两个说话人表征矢量并输入Sigmoid输出模块,训练孪生神经网络;采用经训练的孪生神经网络判断输入的两段短语音是否属于同一个说话人,得到说话人匹配结果。本方法引入空洞循环卷积子网络使孪生神经网络获得更大的感受野,并利用语音样本前后帧之间的说话人信息,获得更好的说话人匹配结果。

    基于通道注意力深度可分卷积网络的小样本话者辨认方法

    公开(公告)号:CN113823292A

    公开(公告)日:2021-12-21

    申请号:CN202110954659.0

    申请日:2021-08-19

    Abstract: 本发明公开了一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,步骤如下:从训练语音提取对数梅尔谱特征,训练得到通道注意力深度可分卷积网络;将注册(小样本)语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;将测试语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。本发明方法既减小了网络规模又降低了网络训练难度,有效缓解小样本话者辨认的过拟合问题,获得更满意话者辨认结果。

    一种基于孪生神经网络的短语音说话人匹配方法

    公开(公告)号:CN112951242A

    公开(公告)日:2021-06-11

    申请号:CN202110140928.X

    申请日:2021-02-02

    Abstract: 本发明公开了一种基于孪生神经网络的短语音说话人匹配方法,步骤如下:构造训练样本对;从各样本提取对数梅尔能量谱特征;搭建孪生神经网络,包括依次连接的空洞循环卷积子网络、说话人表征层和Sigmoid输出模块;将从各训练样本对提取的对数梅尔能量谱特征输入空洞循环卷积子网络以得到样本对的两个说话人表征矢量;拼接样本对的两个说话人表征矢量并输入Sigmoid输出模块,训练孪生神经网络;采用经训练的孪生神经网络判断输入的两段短语音是否属于同一个说话人,得到说话人匹配结果。本方法引入空洞循环卷积子网络使孪生神经网络获得更大的感受野,并利用语音样本前后帧之间的说话人信息,获得更好的说话人匹配结果。

Patent Agency Ranking