用于识别语音的方法和装置

    公开(公告)号:CN111415653B

    公开(公告)日:2023-08-01

    申请号:CN201811549488.8

    申请日:2018-12-18

    Inventor: 孙建伟

    Abstract: 本申请实施例公开了用于识别语音的方法和装置。该方法的一具体实施方式包括:获取音频信号;确定音频信号的信噪比;根据所确定的信噪比,从预先训练的语音识别模型组中选择语音识别模型对音频信号进行语音识别。该实施方式提高了语音识别产品对不同应用场景下的语音进行识别的鲁棒性。

    用于识别语音的方法和装置

    公开(公告)号:CN111415653A

    公开(公告)日:2020-07-14

    申请号:CN201811549488.8

    申请日:2018-12-18

    Inventor: 孙建伟

    Abstract: 本申请实施例公开了用于识别语音的方法和装置。该方法的一具体实施方式包括:获取音频信号;确定音频信号的信噪比;根据所确定的信噪比,从预先训练的语音识别模型组中选择语音识别模型对音频信号进行语音识别。该实施方式提高了语音识别产品对不同应用场景下的语音进行识别的鲁棒性。

    用于识别应用的使用场景的方法和装置

    公开(公告)号:CN108831505A

    公开(公告)日:2018-11-16

    申请号:CN201810538486.2

    申请日:2018-05-30

    Abstract: 本申请实施例公开了用于识别应用的使用场景的方法和装置。该方法的一具体实施方式包括:响应于检测到目标应用的归属于预设类别的子应用被运行,对周围环境中的语音信息进行采集;对采集到的语音信息进行特征提取,将提取出的特征信息输入预先训练的场景识别模型,得到识别结果,其中,识别结果包括语音信息是在预设场景下采集的概率,场景识别模型用于表征特征信息与识别结果之间的对应关系;基于该概率,确定目标应用当前的使用场景是否为预设场景。该实施方式实现了对目标应用当前的使用场景的识别。

    模型构建方法和装置
    6.
    发明授权

    公开(公告)号:CN110189748B

    公开(公告)日:2021-06-11

    申请号:CN201910466779.9

    申请日:2019-05-31

    Inventor: 孙建伟

    Abstract: 本发明实施例提出一种模型构建方法和装置,方法包括:利用训练样本对第一连接时序分类CTC声学模型进行训练,得到优化的第二CTC声学模型;将第二CTC声学模型作为编码层,与第一流式截断的多层注意力SMLTA声学模型的注意力层和解码层结合,构建初始的第二SMLTA声学模型。本发明实施例由于将预先利用训练样本优化后的第二CTC声学模型作为预构建模型的编码层,将第一SMLTA声学模型的注意力层和解码层作为预构建模型的注意力层和解码层,因此使得构建的初始的第二SMLTA声学模型的模型性能得到提高,进而提高模型训练收敛速度,并且能够与训练样本的适配性更好。

    语音处理方法、装置以及电子设备

    公开(公告)号:CN110197658B

    公开(公告)日:2021-01-26

    申请号:CN201910463203.7

    申请日:2019-05-30

    Inventor: 孙建伟

    Abstract: 本申请提出一种语音处理方法、装置以及电子设备,其中,方法包括:采用训练样本集,对第一声学模型进行训练,其中,第一声学模型包括编码层、解码层和输出层;对解码层和输出层复制,得到多个分支;每一个分支包括一个解码层和对应的一个输出层,根据多个分支和第一声学模型的编码层,生成第二声学模型,采用训练样本集中各类型训练样本,分别对第二声学模型中匹配相应类型的分支进行训练,以采用经过训练的第二声学模型进行语音识别。由于经过训练的第二声学模型的各分支采用相应类型的训练样本进行训练,因此,将不同类型的语音输入相应类型的分支进行语音识别,能够准确识别出不同类型的语音,从而提高了语音识别的准确度。

    远场语音识别模型的训练方法和装置

    公开(公告)号:CN107452372B

    公开(公告)日:2020-12-11

    申请号:CN201710866260.0

    申请日:2017-09-22

    Inventor: 孙建伟

    Abstract: 本发明公开了一种远场语音识别模型的训练方法和装置,其中,远场语音识别模型的训练方法包括:获取近场语音数据集;从近场语音数据集中抽取预定数量的近场语音数据,并采用重录近场语音数据的方式获取远场音频;将远场音频切分为多个远场语音片段,并提取远场语音片段中的远场语音特征;将远场语音特征与近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠,近场语音数据集中的近场语音数据与获取远场语音数据时使用的近场语音数据不同;以及基于混叠后的语音特征数据训练远场语音识别模型。本发明实施例的远场语音识别模型的训练方法,能够有效地提升远场语音识别模型的泛化能力,提高语音识别准确率。

    用于生成车载声学模型的方法和装置

    公开(公告)号:CN109637525B

    公开(公告)日:2020-06-09

    申请号:CN201910075039.2

    申请日:2019-01-25

    Inventor: 孙建伟 李超

    Abstract: 本公开的实施例公开了用于生成车载声学模型的方法和装置。该方法的一具体实施方式包括:从预先训练的声学模型组中选择声学模型作为初始声学模型;获取预先生成的训练样本集,其中,训练样本包括样本车载语音数据和对应于样本车载语音数据的样本车载语音识别结果;基于初始声学模型,将训练样本集中的训练样本中的样本车载语音数据作为输入,将与输入的样本车载语音数据相对应的样本车载语音识别结果,作为期望输出,训练得到车载声学模型。该实施方式丰富了模型的生成方式。

    用于生成样本的方法和装置

    公开(公告)号:CN108831446B

    公开(公告)日:2019-10-18

    申请号:CN201810506366.4

    申请日:2018-05-24

    Abstract: 本申请实施例公开了用于生成样本的方法和装置。该方法的一具体实施方式包括:获取候选室内混响集合;对候选室内混响集合中的候选室内混响的混响时间进行统计,得到混响时间分布;将混响时间分布划分为至少一个混响时间分布区间,确定落入至少一个混响时间分布区间中的混响时间分布区间内的候选室内混响;对至少一个混响时间分布区间进行抽样,得到落入所抽样出的混响时间分布区间内的候选室内混响,生成样本室内混响集合。该实施方式实现了快速地生成用于训练声学模型的样本。

Patent Agency Ranking