-
公开(公告)号:CN111341319A
公开(公告)日:2020-06-26
申请号:CN201811559040.4
申请日:2018-12-19
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
-
公开(公告)号:CN106960672A
公开(公告)日:2017-07-18
申请号:CN201710203054.1
申请日:2017-03-30
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0388 , H04S7/00
CPC classification number: G10L21/0388 , H04S7/303
Abstract: 本发明公开了一种立体声音频的带宽扩展方法与装置。该方法包括:将立体声信号分解为直达声和扩散声;按照预设的频带扩展方法对扩散声进行带宽扩展;将直达声分离成多个不同方位的点声源,对多个点声源分别进行带宽扩展,得到带宽扩展后的多个点声源;将带宽扩展后的多个点声源按照预先估计的方位信息进行重新混合,得到带宽扩展后的直达声;根据带宽扩展后的直达声结合带宽扩展后的扩散声重建出宽带立体声音频信号。借助于本发明的技术方案,解决了现有技术中仅根据单个声道重建信号的主观质量实现对信号带宽的扩展,没有考虑到两个声道中信号能量和相位的相关性,其重建立体声信号严重影响了听者对声源位置和距离的判定的问题。
-
公开(公告)号:CN111341319B
公开(公告)日:2023-05-16
申请号:CN201811559040.4
申请日:2018-12-19
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel‑fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
-
公开(公告)号:CN106960672B
公开(公告)日:2020-08-21
申请号:CN201710203054.1
申请日:2017-03-30
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0388 , H04S7/00
Abstract: 本发明公开了一种立体声音频的带宽扩展方法与装置。该方法包括:将立体声信号分解为直达声和扩散声;按照预设的频带扩展方法对扩散声进行带宽扩展;将直达声分离成多个不同方位的点声源,对多个点声源分别进行带宽扩展,得到带宽扩展后的多个点声源;将带宽扩展后的多个点声源按照预先估计的方位信息进行重新混合,得到带宽扩展后的直达声;根据带宽扩展后的直达声结合带宽扩展后的扩散声重建出宽带立体声音频信号。借助于本发明的技术方案,解决了现有技术中仅根据单个声道重建信号的主观质量实现对信号带宽的扩展,没有考虑到两个声道中信号能量和相位的相关性,其重建立体声信号严重影响了听者对声源位置和距离的判定的问题。
-
公开(公告)号:CN108305616A
公开(公告)日:2018-07-20
申请号:CN201810039421.3
申请日:2018-01-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种基于长短时特征提取的音频场景识别方法及装置,该方法包括,对输入待识别音频信号进行预处理;对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取,将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
-
公开(公告)号:CN108305616B
公开(公告)日:2021-03-16
申请号:CN201810039421.3
申请日:2018-01-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种基于长短时特征提取的音频场景识别方法及装置,该方法包括,对输入待识别音频信号进行预处理;对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取,将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
-
公开(公告)号:CN109599123B
公开(公告)日:2021-02-09
申请号:CN201710911340.3
申请日:2017-09-29
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L21/02 , G10L19/02 , G10L19/04 , G10L21/038
Abstract: 本发明公开一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:步骤1)对输入音频信号x(n)进行预处理,获得滤波信号;步骤2)对滤波信号进行调制重叠变换得到低频调制重叠变换系数;步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;步骤6)根据上述所得高频频谱包络和高频频谱细节恢复音频信号x(n)的高频频谱信息;步骤7)利用调制重叠反变换实现x(n)的带宽扩展。
-
公开(公告)号:CN109599123A
公开(公告)日:2019-04-09
申请号:CN201710911340.3
申请日:2017-09-29
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L21/02 , G10L19/02 , G10L19/04 , G10L21/038
Abstract: 本发明公开一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:步骤1)对输入音频信号x(n)进行预处理,获得滤波信号;步骤2)对滤波信号进行调制重叠变换得到低频调制重叠变换系数;步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;步骤6)根据上述所得高频频谱包络和高频频谱细节恢复音频信号x(n)的高频频谱信息;步骤7)利用调制重叠反变换实现x(n)的带宽扩展。
-
公开(公告)号:CN108198571B
公开(公告)日:2021-07-30
申请号:CN201711394223.0
申请日:2017-12-21
Applicant: 中国科学院声学研究所 , 腾讯科技(北京)有限公司
IPC: G10L21/038 , G10L21/0208 , G10L25/18 , G10L25/30 , G10L25/93
Abstract: 本发明公开了一种基于自适应带宽判断的带宽扩展方法,所述方法包括:步骤1)根据设置的语音信号的输入采样率和输出采样率,对输入语音信号x(n)进行采样率转换,输出信号y(n),其采样率为输出采样率;步骤2)计算信号y(n)的帧能量值,依次对信号y(n)进行低通、带通和高通滤波处理,计算处理后信号与信号y(n)的帧能量值的比值,将比值与相应阈值进行比较,从而判定信号的有效频带宽度是否存在,并根据判定结果进一步判定是否需要对信号y(n)进行带宽扩展,如果需要,转入步骤3),否则,直接将输入信号y(n)进行输出;步骤3)对信号y(n)的进行带宽扩展,然后输出。本发明的方法及系统在可变采样率、可变带宽条件下,能够稳健地实现对语音带宽的扩展。
-
公开(公告)号:CN108198571A
公开(公告)日:2018-06-22
申请号:CN201711394223.0
申请日:2017-12-21
Applicant: 中国科学院声学研究所 , 腾讯科技(北京)有限公司
IPC: G10L21/038 , G10L21/0208 , G10L25/18 , G10L25/30 , G10L25/93
Abstract: 本发明公开了一种基于自适应带宽判断的带宽扩展方法,所述方法包括:步骤1)根据设置的语音信号的输入采样率和输出采样率,对输入语音信号x(n)进行采样率转换,输出信号y(n),其采样率为输出采样率;步骤2)计算信号y(n)的帧能量值,依次对信号y(n)进行低通、带通和高通滤波处理,计算处理后信号与信号y(n)的帧能量值的比值,将比值与相应阈值进行比较,从而判定信号的有效频带宽度是否存在,并根据判定结果进一步判定是否需要对信号y(n)进行带宽扩展,如果需要,转入步骤3),否则,直接将输入信号y(n)进行输出;步骤3)对信号y(n)的进行带宽扩展,然后输出。本发明的方法及系统在可变采样率、可变带宽条件下,能够稳健地实现对语音带宽的扩展。
-
-
-
-
-
-
-
-
-