-
公开(公告)号:CN106847267A
公开(公告)日:2017-06-13
申请号:CN201510885336.5
申请日:2015-12-04
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
摘要: 本发明提供了一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。上述步骤101)进一步包含:步骤101-1)对语音流进行端点检测,去除静音段;步骤101-2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101-3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101-4)再将步骤101-3)的处理结果输入HMM检测器进行初次判决。
-
公开(公告)号:CN106847267B
公开(公告)日:2020-04-14
申请号:CN201510885336.5
申请日:2015-12-04
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
摘要: 本发明提供了一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。上述步骤101)进一步包含:步骤101‑1)对语音流进行端点检测,去除静音段;步骤101‑2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101‑3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101‑4)再将步骤101‑3)的处理结果输入HMM检测器进行初次判决。
-
公开(公告)号:CN111354352B
公开(公告)日:2023-07-14
申请号:CN201811582260.9
申请日:2018-12-24
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G10L15/20 , G10L15/06 , G10L15/14 , G10L25/12 , G10L25/18 , G10L25/24 , G10L25/30 , G10L25/45
摘要: 本发明公开了一种用于音频检索的模板自动清洗方法及系统,所述方法包括:提取模板的语音信号的特征,形成特征序列;将语音特征序列输入预先训练好的深度神经网络,输出每一帧语音特征的后验概率;将后验概率转换为似然概率,然后进行Viterbi解码,输出最终的模板清洗结果。本发明的方法充分利用了深度神经网络以及数据驱动方法的优点,通过加入多样的非语音数据,使得DNN能够学习到无效语音与输入特征的非线性映射关系;同时,利用Viterbi算法能够增加系统对短时噪声、短暂频谱残缺等问题的鲁棒性。
-
公开(公告)号:CN111354352A
公开(公告)日:2020-06-30
申请号:CN201811582260.9
申请日:2018-12-24
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G10L15/20 , G10L15/06 , G10L15/14 , G10L25/12 , G10L25/18 , G10L25/24 , G10L25/30 , G10L25/45
摘要: 本发明公开了一种用于音频检索的模板自动清洗方法及系统,所述方法包括:提取模板的语音信号的特征,形成特征序列;将语音特征序列输入预先训练好的深度神经网络,输出每一帧语音特征的后验概率;将后验概率转换为似然概率,然后进行Viterbi解码,输出最终的模板清洗结果。本发明的方法充分利用了深度神经网络以及数据驱动方法的优点,通过加入多样的非语音数据,使得DNN能够学习到无效语音与输入特征的非线性映射关系;同时,利用Viterbi算法能够增加系统对短时噪声、短暂频谱残缺等问题的鲁棒性。
-
公开(公告)号:CN114822582B
公开(公告)日:2024-10-18
申请号:CN202110120278.2
申请日:2021-01-28
申请人: 中国科学院声学研究所
IPC分类号: G10L21/0272
摘要: 本发明公开了一种采用级联掩蔽估计的语音分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;所述声源分离器采用级联掩蔽估计分离器;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形。本发明的方法为了进一步提高多粒度特征融合的质量和效率,以跨粒度特征融合单元为基础,通过多级细化和逐粒度融合,逐步优化多时间粒度的融合特征,从而提高了分离出的目标信号的质量。
-
公开(公告)号:CN114822583A
公开(公告)日:2022-07-29
申请号:CN202110120284.8
申请日:2021-01-28
申请人: 中国科学院声学研究所
IPC分类号: G10L21/0272
摘要: 本发明公开了一种采用核化听觉模型的单通道声源分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形;其中,所述编码器和解码器均采用核化听觉模型;所述声源分离器采用基于一维时域卷积的源分离模型,所述编码器和解码器的训练过程和所述声源分离器的训练过程是独立的。本发明的方法在编码器和解码器中引入了模型偏置,有效减少了模型参数,极大降低了模型复杂度。
-
公开(公告)号:CN114822582A
公开(公告)日:2022-07-29
申请号:CN202110120278.2
申请日:2021-01-28
申请人: 中国科学院声学研究所
IPC分类号: G10L21/0272
摘要: 本发明公开了一种采用级联掩蔽估计的语音分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;所述声源分离器采用级联掩蔽估计分离器;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形。本发明的方法为了进一步提高多粒度特征融合的质量和效率,以跨粒度特征融合单元为基础,通过多级细化和逐粒度融合,逐步优化多时间粒度的融合特征,从而提高了分离出的目标信号的质量。
-
公开(公告)号:CN111382302B
公开(公告)日:2023-08-11
申请号:CN201811619717.9
申请日:2018-12-28
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/683 , G06F16/632 , G06F16/61
摘要: 本发明涉及一种基于变速模板的音频样例检索方法,该方法具体包括:针对长度5秒以上的变速模板的待检音频拆分为多个短音频片段,获取各个短音频片段的二进制音频指纹序列值,查找预先建立的哈希表;查找出各个短音频片段的二进制音频指纹序列值对应的模板音频的音频指纹序列值;计算各个短音频片段和模板音频之间指纹序列差异数D和模板音频与短音频片段之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为短音频片段与模板音频相似;如果D>Reject,则认为短音频片段存在错误,并提取该短音频片段。
-
公开(公告)号:CN112712096A
公开(公告)日:2021-04-27
申请号:CN201911022350.7
申请日:2019-10-25
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
摘要: 本发明公开了基于深度递归非负矩阵分解的音频场景分类方法及系统,该方法包括:将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。本发明的方法将深度NMF用于音频场景分类,通过探索相邻帧之间NMF系数的递归关系,降低模型复杂度,提高泛化能力。
-
公开(公告)号:CN111382303B
公开(公告)日:2023-11-28
申请号:CN201811619718.3
申请日:2018-12-28
申请人: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/683 , G06F16/61
摘要: 本发明涉及一种基于指纹权重的音频样例检索方法,该方法具体包括:获取待检音频的二进制音频指纹序列值,在预先建立的哈希表中进行查找;查找出对应的模板音频的二进制音频指纹序列值;计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误。
-
-
-
-
-
-
-
-
-