-
公开(公告)号:CN105355197B
公开(公告)日:2020-01-07
申请号:CN201510729439.2
申请日:2015-10-30
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提出一种用于语音识别系统的增益处理方法和装置,其中,该方法包括:从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,音频期望幅值与语音识别系统中的训练数据匹配;从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;应用期望增益对第一音频数据进行幅度调整。实现了对音频数据进行自动的增益调整,使得接收到的音频信号的幅值大于语音识别系统的门限值,且与训练数据相匹配,提高了语音识别系统的稳健性。
-
公开(公告)号:CN105489222A
公开(公告)日:2016-04-13
申请号:CN201510920588.7
申请日:2015-12-11
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种语音识别方法和装置,该语音识别方法包括:获取待识别的语音信号的特征;根据所述特征在构图生成的搜索空间内进行路径搜索,输出解码结果;根据所述解码结果判断是否需要拒识;如果需要拒识,则确定语音识别结果是拒识,如果不需要拒识,则根据所述解码结果获取语音识别结果。该方法具有很好的拒识效果。
-
公开(公告)号:CN105355197A
公开(公告)日:2016-02-24
申请号:CN201510729439.2
申请日:2015-10-30
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提出一种用于语音识别系统的增益处理方法和装置,其中,该方法包括:从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,音频期望幅值与语音识别系统中的训练数据匹配;从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;应用期望增益对第一音频数据进行幅度调整。实现了对音频数据进行自动的增益调整,使得接收到的音频信号的幅值大于语音识别系统的门限值,且与训练数据相匹配,提高了语音识别系统的稳健性。
-
公开(公告)号:CN111161748B
公开(公告)日:2022-09-23
申请号:CN202010105947.4
申请日:2020-02-20
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种双讲状态检测方法、装置以及电子设备,涉及语音处理技术领域。具体实现方案为:计算误差信号在M个子带的每个子带上的第一能量与滤波信号在同一子带上的第二能量之间的能量比值,得到M个能量比值,其中,误差信号为麦克风采集的输入信号与滤波信号之间的差,滤波信号为对参考信号进行滤波处理后的信号,M为正整数;对M个能量比值进行第一平滑处理,得到M个第一能量平滑比值,以及对M个第一能量平滑比值进行第二平滑处理,得到M个第二能量平滑比值;依据M个第一能量平滑比值和M个第二能量平滑比值进行双讲状态检测,确定输入信号的状态。可提高状态检测准确性。
-
公开(公告)号:CN105513606B
公开(公告)日:2019-12-06
申请号:CN201510848803.7
申请日:2015-11-27
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0364
Abstract: 本申请提出一种语音信号处理方法、装置和系统,其中,该方法包括:根据预设的分割点将预设的信号调整区间分割为多段放大区间;以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。通过本发明提供的语音信号处理方法、装置和系统,实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。
-
公开(公告)号:CN105845151B
公开(公告)日:2019-05-31
申请号:CN201610371874.7
申请日:2016-05-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0316 , G10L21/0364
Abstract: 本申请提出一种应用于语音识别前端的音频增益调整方法和装置,该应用于语音识别前端的音频增益调整方法包括:接收音频数据;对所述音频数据进行AGC处理;对AGC处理后的音频数据进行DRC处理。该方法能够提高音频增益的调整效果。
-
公开(公告)号:CN105304093B
公开(公告)日:2017-07-25
申请号:CN201510763516.6
申请日:2015-11-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0216
Abstract: 本申请提出一种用于语音识别的信号前端处理方法和装置,其中,该方法包括:若检测存在语音信号,根据扬声器播出信号的第一时间与麦克风接收回声信号的第二时间确定回声路径时延;根据所述回声路径时延和自适应滤波器的处理帧长对所述回声信号进行时延补偿,并跟踪所述回声信号进行消除。通过本发明提供的用于语音识别的信号前端处理方法和装置,实现了实时跟踪扬声器与麦克风之间的时延差,保证了自适应滤波器可靠而稳定的运行,提高了语音系统识别的稳健性。
-
公开(公告)号:CN105931648A
公开(公告)日:2016-09-07
申请号:CN201610474006.1
申请日:2016-06-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0208 , G10L19/02
CPC classification number: G10L21/0208 , G10L19/0204 , G10L2021/02082
Abstract: 本申请公开了一种音频信号解混响方法和装置。所述的方法包括:获取单通道音频信号,单通道音频信号包括早期混响信号和晚期混响信号;判断单通道音频信号是否为语音信号;若是,则更新早期混响信号的联合概率密度分布的方差,并基于早期混响信号的联合概率密度分布的方差更新子带滤波器的滤波器系数,其中,子带滤波器用于滤除单通道音频信号中包含的晚期混响信号;以及基于更新后的滤波器系数确定解混响的单通道音频信号。本申请的方案,可以将输入的音频信号中的晚期混响信号滤除,从而提高后续语音识别的准确率。
-
公开(公告)号:CN111161748A
公开(公告)日:2020-05-15
申请号:CN202010105947.4
申请日:2020-02-20
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种双讲状态检测方法、装置以及电子设备,涉及语音处理技术领域。具体实现方案为:计算误差信号在M个子带的每个子带上的第一能量与滤波信号在同一子带上的第二能量之间的能量比值,得到M个能量比值,其中,误差信号为麦克风采集的输入信号与滤波信号之间的差,滤波信号为对参考信号进行滤波处理后的信号,M为正整数;对M个能量比值进行第一平滑处理,得到M个第一能量平滑比值,以及对M个能量平滑比值进行第二平滑处理,得到M个第二能量平滑比值;依据M个第一能量平滑比值和M个第二能量平滑比值进行双讲状态检测,确定输入信号的状态。可提高状态检测准确性。
-
公开(公告)号:CN105931648B
公开(公告)日:2019-05-03
申请号:CN201610474006.1
申请日:2016-06-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0208 , G10L19/02
Abstract: 本申请公开了一种音频信号解混响方法和装置。所述的方法包括:获取单通道音频信号,单通道音频信号包括早期混响信号和晚期混响信号;判断单通道音频信号是否为语音信号;若是,则更新早期混响信号的联合概率密度分布的方差,并基于早期混响信号的联合概率密度分布的方差更新子带滤波器的滤波器系数,其中,子带滤波器用于滤除单通道音频信号中包含的晚期混响信号;以及基于更新后的滤波器系数确定解混响的单通道音频信号。本申请的方案,可以将输入的音频信号中的晚期混响信号滤除,从而提高后续语音识别的准确率。
-
-
-
-
-
-
-
-
-