语音识别方法、装置、设备以及计算机可读存储介质

    公开(公告)号:CN110992974A

    公开(公告)日:2020-04-10

    申请号:CN201911164974.2

    申请日:2019-11-25

    Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号,其中麦克风阵列包括至少两个麦克风,例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征,然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式,本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征,能够解决语音增强和语音识别优化目标不一致的问题,从而能够联合优化语音增强和语音识别等目标,实现了语音增强和识别的端到端建模,提高了语音识别的准确率。

    一种声学模型训练方法和装置、计算机设备、存储介质

    公开(公告)号:CN107240395A

    公开(公告)日:2017-10-10

    申请号:CN201710458720.6

    申请日:2017-06-16

    Abstract: 本发明实施例公开了一种声学模型训练方法和装置、计算机设备、存储介质,其中方法包括:获取有监督语音数据和无监督语音数据,其中,有监督语音数据为带有人工标注的语音数据,无监督语音数据为带有机器标注的语音数据;从所述有监督语音数据和无监督语音数据中提取语音特征;利用深度学习的网络结构,对所述有监督语音数据和无监督语音数据的语音特征分别进行有监督学习任务和无监督学习任务的多任务学习,以训练并获得声学模型。本发明实施例基于多任务学习的半监督声学模型训练,节省了声学模型训练所需的人工标注语音数据的成本,也无需购买价格昂贵的人工标注语音数据,并且可以持续提升语音识别的性能。

    基于人工智能的跨语种语音转录方法、设备及可读介质

    公开(公告)号:CN107170453B

    公开(公告)日:2020-11-03

    申请号:CN201710351933.9

    申请日:2017-05-18

    Inventor: 邹伟 李先刚 黄斌

    Abstract: 本发明提供一种基于人工智能的跨语种语音转录方法、设备及可读介质。其所述方法包括:将待转录的语音数据进行预处理,获取多个声学特征;待转录的语音数据采用第一语种表示;根据多个声学特征以及预先训练的跨语种转录模型,预测语音数据对应的转录后的翻译文本;其中,翻译文本采用第二语种表示,第二语种不同于第一语种。采用本发明的技术方案,跨语种语音转录时不用先进行语音识别,再进行机器翻译,而是直接根据预先训练的跨语种转录模型便可以进行跨语种转录,能够克服现有技术中的两步走的跨语种转录方式中的错误累积的问题,与现有技术相比,能够有效地提高跨语种语音转录的准确性和转录效率。

    一种声学模型训练方法和装置、计算机设备、存储介质

    公开(公告)号:CN107240395B

    公开(公告)日:2020-04-28

    申请号:CN201710458720.6

    申请日:2017-06-16

    Abstract: 本发明实施例公开了一种声学模型训练方法和装置、计算机设备、存储介质,其中方法包括:获取有监督语音数据和无监督语音数据,其中,有监督语音数据为带有人工标注的语音数据,无监督语音数据为带有机器标注的语音数据;从所述有监督语音数据和无监督语音数据中提取语音特征;利用深度学习的网络结构,对所述有监督语音数据和无监督语音数据的语音特征分别进行有监督学习任务和无监督学习任务的多任务学习,以训练并获得声学模型。本发明实施例基于多任务学习的半监督声学模型训练,节省了声学模型训练所需的人工标注语音数据的成本,也无需购买价格昂贵的人工标注语音数据,并且可以持续提升语音识别的性能。

    基于人工智能的跨语种语音转录方法、设备及可读介质

    公开(公告)号:CN107170453A

    公开(公告)日:2017-09-15

    申请号:CN201710351933.9

    申请日:2017-05-18

    Inventor: 邹伟 李先刚 黄斌

    Abstract: 本发明提供一种基于人工智能的跨语种语音转录方法、设备及可读介质。其所述方法包括:将待转录的语音数据进行预处理,获取多个声学特征;待转录的语音数据采用第一语种表示;根据多个声学特征以及预先训练的跨语种转录模型,预测语音数据对应的转录后的翻译文本;其中,翻译文本采用第二语种表示,第二语种不同于第一语种。采用本发明的技术方案,跨语种语音转录时不用先进行语音识别,再进行机器翻译,而是直接根据预先训练的跨语种转录模型便可以进行跨语种转录,能够克服现有技术中的两步走的跨语种转录方式中的错误累积的问题,与现有技术相比,能够有效地提高跨语种语音转录的准确性和转录效率。

    语音识别方法、装置、设备以及计算机可读存储介质

    公开(公告)号:CN110992974B

    公开(公告)日:2021-08-24

    申请号:CN201911164974.2

    申请日:2019-11-25

    Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号,其中麦克风阵列包括至少两个麦克风,例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征,然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式,本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征,能够解决语音增强和语音识别优化目标不一致的问题,从而能够联合优化语音增强和语音识别等目标,实现了语音增强和识别的端到端建模,提高了语音识别的准确率。

Patent Agency Ranking