-
公开(公告)号:CN109599123B
公开(公告)日:2021-02-09
申请号:CN201710911340.3
申请日:2017-09-29
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L21/02 , G10L19/02 , G10L19/04 , G10L21/038
Abstract: 本发明公开一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:步骤1)对输入音频信号x(n)进行预处理,获得滤波信号;步骤2)对滤波信号进行调制重叠变换得到低频调制重叠变换系数;步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;步骤6)根据上述所得高频频谱包络和高频频谱细节恢复音频信号x(n)的高频频谱信息;步骤7)利用调制重叠反变换实现x(n)的带宽扩展。
-
公开(公告)号:CN106297769B
公开(公告)日:2019-07-09
申请号:CN201510280471.7
申请日:2015-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L15/02
Abstract: 本发明涉及一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。
-
公开(公告)号:CN109599123A
公开(公告)日:2019-04-09
申请号:CN201710911340.3
申请日:2017-09-29
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L21/02 , G10L19/02 , G10L19/04 , G10L21/038
Abstract: 本发明公开一种基于遗传算法优化模型参数的音频带宽扩展方法,所述方法包括:步骤1)对输入音频信号x(n)进行预处理,获得滤波信号;步骤2)对滤波信号进行调制重叠变换得到低频调制重叠变换系数;步骤3)将低频调制重叠变换系数划分子带,计算每个子带的均方根能量,得到低频频谱包络序列;步骤4)根据低频频谱包络序列,采用灰色模型GM(1,1)对音频信号的高频子带能量进行估计,得到高频频谱包络;步骤5)采用频谱复制、频谱折叠、非线性计算、综合多带激励或非线性预测方法对音频频谱细节进行扩展,得到高频频谱细节;步骤6)根据上述所得高频频谱包络和高频频谱细节恢复音频信号x(n)的高频频谱信息;步骤7)利用调制重叠反变换实现x(n)的带宽扩展。
-
公开(公告)号:CN107305767B
公开(公告)日:2020-03-17
申请号:CN201610236672.1
申请日:2016-04-15
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/00 , G10L15/04 , G10L15/10 , G06F40/263
Abstract: 本发明提供了一种应用于语种识别的短时语音时长扩展方法,所述方法包括:对于一条时长较短的待识别语音,首先根据其语音时长确定生成的不同语速语音的数量n;然后根据合成帧移值及n个语速变化率计算生成语音的n个分解帧移;根据分解帧移和合成帧移生成n个不同语速的语音,将n个不同语速的语音与原语音拼接起来,生成一个时长加长的语音。不同语速的语音的语种信息具有互补性,本发明所提出的方法可以显著提升短时语音的语种识别性能。
-
公开(公告)号:CN104992708B
公开(公告)日:2018-07-24
申请号:CN201510236568.8
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种短时特定音频检测模型生成方法,包括:对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音频数据与特定音频数据;用训练语音数据的特征,进行通用背景模型的训练;由训练语音数据中某一类特定音频数据的特征,根据通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语音数据中所有类特定音频数据的模型。本发明还提供了一种短时特定音频检测方法,该方法通过模型打分进行特定音频的检测。这种方法不仅可以很好地解决特定音频模型训练数据不充足的问题,还可以一定程度的对输入数据的背景噪声进行抑制。
-
公开(公告)号:CN106297769A
公开(公告)日:2017-01-04
申请号:CN201510280471.7
申请日:2015-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L15/02
Abstract: 本发明涉及一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。
-
公开(公告)号:CN104992708A
公开(公告)日:2015-10-21
申请号:CN201510236568.8
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种短时特定音频检测模型生成方法,包括:对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音频数据与特定音频数据;用训练语音数据的特征,进行通用背景模型的训练;由训练语音数据中某一类特定音频数据的特征,根据通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语音数据中所有类特定音频数据的模型。本发明还提供了一种短时特定音频检测方法,该方法通过模型打分进行特定音频的检测。这种方法不仅可以很好地解决特定音频模型训练数据不充足的问题,还可以一定程度的对输入数据的背景噪声进行抑制。
-
公开(公告)号:CN106297819B
公开(公告)日:2019-09-06
申请号:CN201510272422.9
申请日:2015-05-25
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0224
Abstract: 本发明涉及一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。本发明的方法实现了在特征层消除噪声影响;不需要增加额外的训练数据;在系统速度不会大幅降低的情况下可以明显提高系统在在噪声环境下的性能。
-
公开(公告)号:CN107305767A
公开(公告)日:2017-10-31
申请号:CN201610236672.1
申请日:2016-04-15
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种应用于语种识别的短时语音时长扩展方法,所述方法包括:对于一条时长较短的待识别语音,首先根据其语音时长确定生成的不同语速语音的数量n;然后根据合成帧移值及n个语速变化率计算生成语音的n个分解帧移;根据分解帧移和合成帧移生成n个不同语速的语音,将n个不同语速的语音与原语音拼接起来,生成一个时长加长的语音。不同语速的语音的语种信息具有互补性,本发明所提出的方法可以显著提升短时语音的语种识别性能。
-
公开(公告)号:CN106297819A
公开(公告)日:2017-01-04
申请号:CN201510272422.9
申请日:2015-05-25
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0224
Abstract: 本发明涉及一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。本发明的方法实现了在特征层消除噪声影响;不需要增加额外的训练数据;在系统速度不会大幅降低的情况下可以明显提高系统在噪声环境下的性能。
-
-
-
-
-
-
-
-
-