-
公开(公告)号:CN111415653B
公开(公告)日:2023-08-01
申请号:CN201811549488.8
申请日:2018-12-18
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 孙建伟
IPC: G10L15/06
Abstract: 本申请实施例公开了用于识别语音的方法和装置。该方法的一具体实施方式包括:获取音频信号;确定音频信号的信噪比;根据所确定的信噪比,从预先训练的语音识别模型组中选择语音识别模型对音频信号进行语音识别。该实施方式提高了语音识别产品对不同应用场景下的语音进行识别的鲁棒性。
-
公开(公告)号:CN109887491B
公开(公告)日:2020-11-17
申请号:CN201910205421.0
申请日:2019-03-18
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 孙建伟
Abstract: 本公开提供了一种声学模型训练方法,该方法包括:获取精标数据的语音特征和普通数据的语音特征,其中,精标数据是指标注后得到的数据,普通数据是指未标注的数据,根据精标数据的语音特征和预设的网络模型确定单输入模型,根据单输入模型、精标数据的语音特征和普通数据的语音特征确定双输入声学模型。本公开还提供了一种声学模型训练装置、电子设备、计算机可读介质。
-
公开(公告)号:CN111415653A
公开(公告)日:2020-07-14
申请号:CN201811549488.8
申请日:2018-12-18
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 孙建伟
IPC: G10L15/06
Abstract: 本申请实施例公开了用于识别语音的方法和装置。该方法的一具体实施方式包括:获取音频信号;确定音频信号的信噪比;根据所确定的信噪比,从预先训练的语音识别模型组中选择语音识别模型对音频信号进行语音识别。该实施方式提高了语音识别产品对不同应用场景下的语音进行识别的鲁棒性。
-
公开(公告)号:CN108831505A
公开(公告)日:2018-11-16
申请号:CN201810538486.2
申请日:2018-05-30
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于识别应用的使用场景的方法和装置。该方法的一具体实施方式包括:响应于检测到目标应用的归属于预设类别的子应用被运行,对周围环境中的语音信息进行采集;对采集到的语音信息进行特征提取,将提取出的特征信息输入预先训练的场景识别模型,得到识别结果,其中,识别结果包括语音信息是在预设场景下采集的概率,场景识别模型用于表征特征信息与识别结果之间的对应关系;基于该概率,确定目标应用当前的使用场景是否为预设场景。该实施方式实现了对目标应用当前的使用场景的识别。
-
公开(公告)号:CN108665889B
公开(公告)日:2021-09-28
申请号:CN201810361475.1
申请日:2018-04-20
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例提供一种语音信号端点检测方法、装置、设备及存储介质,通过获取第一音频信号,所述第一音频信号中包括语音信号;基于能量和过零率的第一语音活动检测VAD算法,以及基于深度学习的第二VAD算法中的一种从所述第一音频信号中检测所述语音信号的起点;在检测到所述语音信号的起点后,采用所述第一VAD算法和所述第二VAD算法中的另一种检测所述语音信号的终点。从而在确保语音信号端点检测准确性的同时,降低了计算量。
-
公开(公告)号:CN110189748B
公开(公告)日:2021-06-11
申请号:CN201910466779.9
申请日:2019-05-31
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 孙建伟
IPC: G10L15/06
Abstract: 本发明实施例提出一种模型构建方法和装置,方法包括:利用训练样本对第一连接时序分类CTC声学模型进行训练,得到优化的第二CTC声学模型;将第二CTC声学模型作为编码层,与第一流式截断的多层注意力SMLTA声学模型的注意力层和解码层结合,构建初始的第二SMLTA声学模型。本发明实施例由于将预先利用训练样本优化后的第二CTC声学模型作为预构建模型的编码层,将第一SMLTA声学模型的注意力层和解码层作为预构建模型的注意力层和解码层,因此使得构建的初始的第二SMLTA声学模型的模型性能得到提高,进而提高模型训练收敛速度,并且能够与训练样本的适配性更好。
-
公开(公告)号:CN110197658B
公开(公告)日:2021-01-26
申请号:CN201910463203.7
申请日:2019-05-30
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 孙建伟
IPC: G10L15/06
Abstract: 本申请提出一种语音处理方法、装置以及电子设备,其中,方法包括:采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层;对解码层和输出层复制,得到多个分支;每一个分支包括一个解码层和对应的一个输出层,根据多个分支和第一声学模型的编码层,生成第二声学模型,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。由于经过训练的第二声学模型的各分支采用相应类型的训练样本进行训练,因此,将不同类型的语音输入相应类型的分支进行语音识别,能够准确识别出不同类型的语音,从而提高了语音识别的准确度。
-
公开(公告)号:CN107452372B
公开(公告)日:2020-12-11
申请号:CN201710866260.0
申请日:2017-09-22
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 孙建伟
Abstract: 本发明公开了一种远场语音识别模型的训练方法和装置,其中,远场语音识别模型的训练方法包括:获取近场语音数据集;从近场语音数据集中抽取预定数量的近场语音数据,并采用重录近场语音数据的方式获取远场音频;将远场音频切分为多个远场语音片段,并提取远场语音片段中的远场语音特征;将远场语音特征与近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠,近场语音数据集中的近场语音数据与获取远场语音数据时使用的近场语音数据不同;以及基于混叠后的语音特征数据训练远场语音识别模型。本发明实施例的远场语音识别模型的训练方法,能够有效地提升远场语音识别模型的泛化能力,提高语音识别准确率。
-
公开(公告)号:CN109637525B
公开(公告)日:2020-06-09
申请号:CN201910075039.2
申请日:2019-01-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06
Abstract: 本公开的实施例公开了用于生成车载声学模型的方法和装置。该方法的一具体实施方式包括:从预先训练的声学模型组中选择声学模型作为初始声学模型;获取预先生成的训练样本集,其中,训练样本包括样本车载语音数据和对应于样本车载语音数据的样本车载语音识别结果;基于初始声学模型,将训练样本集中的训练样本中的样本车载语音数据作为输入,将与输入的样本车载语音数据相对应的样本车载语音识别结果,作为期望输出,训练得到车载声学模型。该实施方式丰富了模型的生成方式。
-
公开(公告)号:CN108831446B
公开(公告)日:2019-10-18
申请号:CN201810506366.4
申请日:2018-05-24
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于生成样本的方法和装置。该方法的一具体实施方式包括:获取候选室内混响集合;对候选室内混响集合中的候选室内混响的混响时间进行统计,得到混响时间分布;将混响时间分布划分为至少一个混响时间分布区间,确定落入至少一个混响时间分布区间中的混响时间分布区间内的候选室内混响;对至少一个混响时间分布区间进行抽样,得到落入所抽样出的混响时间分布区间内的候选室内混响,生成样本室内混响集合。该实施方式实现了快速地生成用于训练声学模型的样本。
-
-
-
-
-
-
-
-
-