基于通道注意力深度可分卷积网络的小样本话者辨认方法

    公开(公告)号:CN113823292B

    公开(公告)日:2023-07-21

    申请号:CN202110954659.0

    申请日:2021-08-19

    Abstract: 本发明公开了一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,步骤如下:从训练语音提取对数梅尔谱特征,训练得到通道注意力深度可分卷积网络;将注册(小样本)语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;将测试语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。本发明方法既减小了网络规模又降低了网络训练难度,有效缓解小样本话者辨认的过拟合问题,获得更满意话者辨认结果。

    同时优化深度表征学习与说话人类别估计的说话人聚类方法

    公开(公告)号:CN111161744B

    公开(公告)日:2023-04-28

    申请号:CN201911239006.3

    申请日:2019-12-06

    Abstract: 本发明公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,步骤如下:对聚类语音样本进行预处理,提取I‑vector特征,训练卷积自编码网络并提取深度表征特征;根据深度表征特征构造初始类,得到类别数和初始类标签;在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架,Softmax层用于估计说话人类别;将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数,迭代更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。本发明能同时得到优化的深度表征特征与说话人聚类结果,获得比传统方法更优的说话人聚类效果。

    一种基于空洞卷积循环神经网络的声音事件检测方法

    公开(公告)号:CN111599376A

    公开(公告)日:2020-08-28

    申请号:CN202010483079.3

    申请日:2020-06-01

    Abstract: 本发明公开了一种基于空洞卷积循环神经网络的声音事件检测方法,步骤如下:提取各样本的对数梅尔谱特征;搭建空洞卷积循环神经网络,包括卷积神经网络、双向长短时记忆神经网络和Sigmoid输出层;采用从训练样本提取的对数梅尔谱特征作为输入,训练空洞卷积循环神经网络;采用已训练的空洞卷积循环神经网络辨识测试样本中的声音事件,得到声音事件检测结果。本方法将空洞卷积引入卷积神经网络并将卷积神经网络与循环神经网络进行优化组合,得到空洞卷积循环神经网络。与传统卷积神经网络相比,在网络参数集大小相同的情况下,空洞卷积循环神经网络具有更大的感受野,能更有效利用音频样本的上下文信息,获得更好的声音事件检测结果。

    一种基于空洞卷积循环神经网络的声音事件检测方法

    公开(公告)号:CN111599376B

    公开(公告)日:2023-02-14

    申请号:CN202010483079.3

    申请日:2020-06-01

    Abstract: 本发明公开了一种基于空洞卷积循环神经网络的声音事件检测方法,步骤如下:提取各样本的对数梅尔谱特征;搭建空洞卷积循环神经网络,包括卷积神经网络、双向长短时记忆神经网络和Sigmoid输出层;采用从训练样本提取的对数梅尔谱特征作为输入,训练空洞卷积循环神经网络;采用已训练的空洞卷积循环神经网络辨识测试样本中的声音事件,得到声音事件检测结果。本方法将空洞卷积引入卷积神经网络并将卷积神经网络与循环神经网络进行优化组合,得到空洞卷积循环神经网络。与传统卷积神经网络相比,在网络参数集大小相同的情况下,空洞卷积循环神经网络具有更大的感受野,能更有效利用音频样本的上下文信息,获得更好的声音事件检测结果。

    同时优化深度表征学习与说话人类别估计的说话人聚类方法

    公开(公告)号:CN111161744A

    公开(公告)日:2020-05-15

    申请号:CN201911239006.3

    申请日:2019-12-06

    Abstract: 本发明公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,步骤如下:对聚类语音样本进行预处理,提取I-vector特征,训练卷积自编码网络并提取深度表征特征;根据深度表征特征构造初始类,得到类别数和初始类标签;在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架,Softmax层用于估计说话人类别;将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数,迭代更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。本发明能同时得到优化的深度表征特征与说话人聚类结果,获得比传统方法更优的说话人聚类效果。

    一种基于孪生神经网络的短语音说话人匹配方法

    公开(公告)号:CN112951242B

    公开(公告)日:2022-10-25

    申请号:CN202110140928.X

    申请日:2021-02-02

    Abstract: 本发明公开了一种基于孪生神经网络的短语音说话人匹配方法,步骤如下:构造训练样本对;从各样本提取对数梅尔能量谱特征;搭建孪生神经网络,包括依次连接的空洞循环卷积子网络、说话人表征层和Sigmoid输出模块;将从各训练样本对提取的对数梅尔能量谱特征输入空洞循环卷积子网络以得到样本对的两个说话人表征矢量;拼接样本对的两个说话人表征矢量并输入Sigmoid输出模块,训练孪生神经网络;采用经训练的孪生神经网络判断输入的两段短语音是否属于同一个说话人,得到说话人匹配结果。本方法引入空洞循环卷积子网络使孪生神经网络获得更大的感受野,并利用语音样本前后帧之间的说话人信息,获得更好的说话人匹配结果。

    基于通道注意力深度可分卷积网络的小样本话者辨认方法

    公开(公告)号:CN113823292A

    公开(公告)日:2021-12-21

    申请号:CN202110954659.0

    申请日:2021-08-19

    Abstract: 本发明公开了一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,步骤如下:从训练语音提取对数梅尔谱特征,训练得到通道注意力深度可分卷积网络;将注册(小样本)语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;将测试语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。本发明方法既减小了网络规模又降低了网络训练难度,有效缓解小样本话者辨认的过拟合问题,获得更满意话者辨认结果。

    一种基于孪生神经网络的短语音说话人匹配方法

    公开(公告)号:CN112951242A

    公开(公告)日:2021-06-11

    申请号:CN202110140928.X

    申请日:2021-02-02

    Abstract: 本发明公开了一种基于孪生神经网络的短语音说话人匹配方法,步骤如下:构造训练样本对;从各样本提取对数梅尔能量谱特征;搭建孪生神经网络,包括依次连接的空洞循环卷积子网络、说话人表征层和Sigmoid输出模块;将从各训练样本对提取的对数梅尔能量谱特征输入空洞循环卷积子网络以得到样本对的两个说话人表征矢量;拼接样本对的两个说话人表征矢量并输入Sigmoid输出模块,训练孪生神经网络;采用经训练的孪生神经网络判断输入的两段短语音是否属于同一个说话人,得到说话人匹配结果。本方法引入空洞循环卷积子网络使孪生神经网络获得更大的感受野,并利用语音样本前后帧之间的说话人信息,获得更好的说话人匹配结果。

    一种基于通用CMOS摄像头的可见光通信方法及装置

    公开(公告)号:CN107612617A

    公开(公告)日:2018-01-19

    申请号:CN201710822171.6

    申请日:2017-09-13

    Abstract: 本发明公开了一种基于通用CMOS摄像头的可见光通信方法及装置,该发明通过使用CMOS摄像头作为接收端的可见光通信装置,基于CMOS图像传感器的卷帘快门曝光模式,在接收LED灯具发出的高频可见光信号时,CMOS摄像头将拍摄出由明暗条纹交错分布的卷帘效应灰度图案,并通过对卷帘效应灰度图案依次进行选取列向量矩阵、提高消光比以及阈值判决三个主要步骤的处理后,解调数据包,实现高速的可见光通信。该装置不需要额外的接收端装置成本以及在实际使用中更具灵活性,卷帘效应灰度图案有效缓解了过曝光效应,降低了接收信号的误码率,显著提高了消光比,使曼彻斯特码编写的数据头更加易于被检测出来,降低了可见光通信的噪声干扰。

    一种基于通用CMOS摄像头的可见光通信装置

    公开(公告)号:CN207218702U

    公开(公告)日:2018-04-10

    申请号:CN201721169779.5

    申请日:2017-09-13

    Abstract: 本实用新型公开了一种基于通用CMOS摄像头的可见光通信装置,该可见光通信装置通过使用CMOS摄像头作为接收端,基于CMOS图像传感器的卷帘快门曝光模式,在接收LED灯具发出的高频可见光信号时,CMOS摄像头将拍摄出由明暗条纹交错分布的卷帘效应灰度图案,并通过对卷帘效应灰度图案依次进行选取列向量矩阵、提高消光比以及阈值判决三个主要步骤的处理后,解调数据包,实现高速的可见光通信。该装置不需要额外的接收端装置成本以及在实际使用中更具灵活性,卷帘效应灰度图案有效缓解了过曝光效应,降低了接收信号的误码率,显著提高了消光比,使曼彻斯特码编写的数据头更加易于被检测出来,降低了可见光通信的噪声干扰。(ESM)同样的发明创造已同日申请发明专利

Patent Agency Ranking