基于注意力机制和双路径深度残差网络的声场景分类方法

    公开(公告)号:CN111754988A

    公开(公告)日:2020-10-09

    申请号:CN202010585359.5

    申请日:2020-06-23

    Abstract: 本发明公开了一种基于注意力机制和双路径深度残差网络的声场景分类方法,包括如下步骤:对原始语音信号计算原始语音频谱图、水平频谱图和垂直频谱图,将水平频谱图和垂直频谱图变换得到新的两路时域信号;分别计算原始语音信号、新的两路时域信号的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图,并在通道维度上进行融合得到融合谱图;割在频率轴上将融合谱图平均分为高频谱图和低频谱图;搭建带有注意力层的双路径深度残差网络;将高频谱图和低频谱图输入深度残差网络,输出原始语音信号所属的声场景类别。本发明可以更好的捕获高频和低频分量的时频特性以及特征图中不同通道的重要度,提升了声场景分类系统的准确性和鲁棒性。

    一种改进的录音设备识别算法

    公开(公告)号:CN110728991A

    公开(公告)日:2020-01-24

    申请号:CN201910841092.9

    申请日:2019-09-06

    Abstract: 本发明公开了一种改进的录音设备识别算法,构建模型一和模型二,模型一包括双向门循环神经网络层、单向门循环神经网络层和注意力层,模型二包括卷积层、跳跃连接层和全局平均池化层,对待检测的音频信号进行分帧和预处理,提取音频信号的多维帧级特征作为模型一的输入、梅尔频谱特征作为模型二的输入,并将模型一和模型二的输出特征进行拼接融合,分类并得出识别结果。本发明的识别算法保留了音频信号的时序特性,通过增加注意力机制、跳跃连接结构和隐藏单元拼接方法等方式,最终得到优质的录音设备相关的特征参数,提高了录音设备的识别效果和模型的鲁棒性。

    一种基于卷积神经网络的言语置信度评测方法

    公开(公告)号:CN106901758B

    公开(公告)日:2019-10-25

    申请号:CN201710099098.4

    申请日:2017-02-23

    Abstract: 本发明公开了一种基于卷积神经网络的言语置信度评测方法。该方法首先对采集的语音样本进行分帧,并提取每帧的梅尔倒谱系数,构成单通道梅尔倒谱系数图像;然后构建六层卷积神经网络,构建前三层为使用尺寸不同的卷积滤波器的卷积层,第四层为生成全局特征图的聚合层,第五层和第六层为由2048个线性修正单元的全连层;最后将梅尔倒谱系数图像输入构建的卷积神经网络进行言语置信度评测。实验结果显示,该置信度评测方法对谎言的识别率达到73%。

    一种双耳助听器语音增强方法

    公开(公告)号:CN104038880B

    公开(公告)日:2017-06-23

    申请号:CN201410295526.7

    申请日:2014-06-26

    Abstract: 本发明公开了一种双耳助听器语音增强方法,该方法包括以下步骤:拾取双耳声学信号;将双耳声学信号分别进行频带分解,得到子带声学信号;计算双耳子带声学信号的联合特征,估计声源所在位置;分别延迟左耳和右耳的子带声学信号,并与不延迟的右耳和左耳的子带声学信号相减或相加,增强指定方向声音;根据噪声源位置,自适应调节延迟参数,抑制噪声信号,得到增强的语音信号。该方法可实现语音信号的方向性增强,并保留语音的自然度。

    一种基于声压级分段的数字助听器宽动态压缩方法

    公开(公告)号:CN105228069A

    公开(公告)日:2016-01-06

    申请号:CN201510629503.X

    申请日:2015-09-28

    Abstract: 本发明公开了一种基于声压级分段的数字助听器宽动态压缩方法,其特征在于,将语音信号分帧,并将分帧后的信号通过16通道非等宽的6阶IIR分解滤波器组进行滤波;然后计算各通道的语音信号的声压级,并结合患者的听力图,获得患者的听力补偿曲线;根据听力补偿曲线对患者进行分通道听力补偿,并将补偿后的多通道信号进行综合,得到补偿后的有用信号提供给患者。本发明所达到的有益效果是:通过将声压级进行八段细化,能够获得更加准确的输入/输出曲线;通过符合人耳听觉特性的6阶IIR分解综合滤波器组,能够得到更加符合患者实际需要的补偿增益值。

    基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法

    公开(公告)号:CN101814159B

    公开(公告)日:2013-07-24

    申请号:CN200910024432.5

    申请日:2009-02-24

    Abstract: 本发明公开了基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,利用本方法可以提高说话人确认系统的性能。本发明充分考虑了AANN和GMM各自的优点,把AANN嵌入到GMM-UBM,并且提出了一种两阶段的学习方法,交替更新GMM和AANN的参数,并以极大似然概率作为训练GMM和AANN的共同目标,这样使AANN能够学习特征向量间的差异,把特征向量集映射能增大似然概率的子空间,并且由于神经网络的学习特性可以进一步消除信道的不匹配效果。实验表明,采用本发明的说话人确认方法可以有效地降低系统的错误识别率。

    一种微麦克风阵列接收信号压缩编码及信号恢复方法

    公开(公告)号:CN103152672A

    公开(公告)日:2013-06-12

    申请号:CN201310110995.2

    申请日:2013-04-03

    Abstract: 本发明提出了一种微麦克风阵列接收信号压缩编码及信号恢复方法。其具体方法是对每个时刻微麦克风阵列接收的信号进行压缩变换,并对压缩变换后的信号进行编码。压缩变换矩阵为对角元为1的下三角阵,其非对角元系数由自适应过程更新。自适应过程及其代价函数在更新过程中最小化压缩变换后的信号能量,对各麦克风阵元接收信号解相关,消除各阵元信号之间的冗余信息。每一时刻的压缩编码信号可以通过压缩变换矩阵的逆矩阵恢复出原始接收信号。由于压缩变换矩阵始终保持对角元为1的下三角阵,所以其逆矩阵始终存在,信号恢复过程稳定可靠。

    一种基于融合空间特征的多通道语音增强方法

    公开(公告)号:CN119446166A

    公开(公告)日:2025-02-14

    申请号:CN202411674055.0

    申请日:2024-11-21

    Abstract: 本发明公开了一种基于融合空间特征的多通道语音增强方法,首先从带噪多通道语音中分别提取多通道复频谱特征和融合空间特征,再将提取的多通道复频谱特征和融合空间特征输入深度神经网络进行处理并设定处理目标为理想复值比率掩蔽,再构建基于复卷积编码器解码器结构的深度复卷积循环语音增强网络,再利用深度复卷积循环语音增强网络对多通道复频谱特征和融合空间特征进行处理,输出预测复值比率掩蔽。本发明充分整合光谱信息、方向特征、通道间特征和相关系数特征,并对动态声源进行空间建模,使得网络对于语音信号的理解和处理能力远超传统方法,能够有效应对复杂多变的语音场景,有效地提升静态场景和动态场景下的语音增强效果。

Patent Agency Ranking