-
公开(公告)号:CN110992974A
公开(公告)日:2020-04-10
申请号:CN201911164974.2
申请日:2019-11-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0216 , G10L25/30 , G10L25/03
Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号,其中麦克风阵列包括至少两个麦克风,例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征,然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式,本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征,能够解决语音增强和语音识别优化目标不一致的问题,从而能够联合优化语音增强和语音识别等目标,实现了语音增强和识别的端到端建模,提高了语音识别的准确率。
-
公开(公告)号:CN107835444A
公开(公告)日:2018-03-23
申请号:CN201711136412.8
申请日:2017-11-16
Applicant: 百度在线网络技术(北京)有限公司
IPC: H04N21/41 , H04N21/422 , H04N21/432 , H04N21/4363 , H04N21/482
CPC classification number: H04N21/4122 , H04N21/42203 , H04N21/432 , H04N21/43637 , H04N21/4825
Abstract: 本发明提出一种信息交互方法,信息交互装置及终端。该信息交互方法应用于音频终端,包括:接收用户的输入指令;根据输入指令和音频终端的连接状态标识生成内容请求消息,并将内容请求消息发送到服务器,其中,所述连接状态标识表示音频终端是否连接视频显示装置;以及接收服务器返回的内容请求响应消息。从而,可以根据音频设备的连接情况更准确的执行用户输入的语音指令。
-
公开(公告)号:CN107103903B
公开(公告)日:2020-05-29
申请号:CN201710312689.5
申请日:2017-05-05
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了基于人工智能的声学模型训练方法、装置及存储介质,其中方法包括:获取人工标注的语音数据;根据人工标注的语音数据训练得到第一声学模型;获取未标注的语音数据;根据未标注的语音数据以及第一声学模型训练得到所需的第二声学模型。应用本发明所述方案,能够节省人力成本,并提高训练效率等。
-
公开(公告)号:CN107240395A
公开(公告)日:2017-10-10
申请号:CN201710458720.6
申请日:2017-06-16
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06
Abstract: 本发明实施例公开了一种声学模型训练方法和装置、计算机设备、存储介质,其中方法包括:获取有监督语音数据和无监督语音数据,其中,有监督语音数据为带有人工标注的语音数据,无监督语音数据为带有机器标注的语音数据;从所述有监督语音数据和无监督语音数据中提取语音特征;利用深度学习的网络结构,对所述有监督语音数据和无监督语音数据的语音特征分别进行有监督学习任务和无监督学习任务的多任务学习,以训练并获得声学模型。本发明实施例基于多任务学习的半监督声学模型训练,节省了声学模型训练所需的人工标注语音数据的成本,也无需购买价格昂贵的人工标注语音数据,并且可以持续提升语音识别的性能。
-
公开(公告)号:CN107103903A
公开(公告)日:2017-08-29
申请号:CN201710312689.5
申请日:2017-05-05
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了基于人工智能的声学模型训练方法、装置及存储介质,其中方法包括:获取人工标注的语音数据;根据人工标注的语音数据训练得到第一声学模型;获取未标注的语音数据;根据未标注的语音数据以及第一声学模型训练得到所需的第二声学模型。应用本发明所述方案,能够节省人力成本,并提高训练效率等。
-
公开(公告)号:CN107170453B
公开(公告)日:2020-11-03
申请号:CN201710351933.9
申请日:2017-05-18
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供一种基于人工智能的跨语种语音转录方法、设备及可读介质。其所述方法包括:将待转录的语音数据进行预处理,获取多个声学特征;待转录的语音数据采用第一语种表示;根据多个声学特征以及预先训练的跨语种转录模型,预测语音数据对应的转录后的翻译文本;其中,翻译文本采用第二语种表示,第二语种不同于第一语种。采用本发明的技术方案,跨语种语音转录时不用先进行语音识别,再进行机器翻译,而是直接根据预先训练的跨语种转录模型便可以进行跨语种转录,能够克服现有技术中的两步走的跨语种转录方式中的错误累积的问题,与现有技术相比,能够有效地提高跨语种语音转录的准确性和转录效率。
-
公开(公告)号:CN107240395B
公开(公告)日:2020-04-28
申请号:CN201710458720.6
申请日:2017-06-16
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06
Abstract: 本发明实施例公开了一种声学模型训练方法和装置、计算机设备、存储介质,其中方法包括:获取有监督语音数据和无监督语音数据,其中,有监督语音数据为带有人工标注的语音数据,无监督语音数据为带有机器标注的语音数据;从所述有监督语音数据和无监督语音数据中提取语音特征;利用深度学习的网络结构,对所述有监督语音数据和无监督语音数据的语音特征分别进行有监督学习任务和无监督学习任务的多任务学习,以训练并获得声学模型。本发明实施例基于多任务学习的半监督声学模型训练,节省了声学模型训练所需的人工标注语音数据的成本,也无需购买价格昂贵的人工标注语音数据,并且可以持续提升语音识别的性能。
-
公开(公告)号:CN107835444B
公开(公告)日:2019-04-23
申请号:CN201711136412.8
申请日:2017-11-16
Applicant: 百度在线网络技术(北京)有限公司
IPC: H04N21/41 , H04N21/422 , H04N21/432 , H04N21/4363 , H04N21/482
Abstract: 本发明提出一种信息交互方法,信息交互装置及终端。该信息交互方法应用于音频终端,包括:接收用户的输入指令;根据输入指令和音频终端的连接状态标识生成内容请求消息,并将内容请求消息发送到服务器,其中,所述连接状态标识表示音频终端是否连接视频显示装置;以及接收服务器返回的内容请求响应消息。从而,可以根据音频设备的连接情况更准确的执行用户输入的语音指令。
-
公开(公告)号:CN107170453A
公开(公告)日:2017-09-15
申请号:CN201710351933.9
申请日:2017-05-18
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供一种基于人工智能的跨语种语音转录方法、设备及可读介质。其所述方法包括:将待转录的语音数据进行预处理,获取多个声学特征;待转录的语音数据采用第一语种表示;根据多个声学特征以及预先训练的跨语种转录模型,预测语音数据对应的转录后的翻译文本;其中,翻译文本采用第二语种表示,第二语种不同于第一语种。采用本发明的技术方案,跨语种语音转录时不用先进行语音识别,再进行机器翻译,而是直接根据预先训练的跨语种转录模型便可以进行跨语种转录,能够克服现有技术中的两步走的跨语种转录方式中的错误累积的问题,与现有技术相比,能够有效地提高跨语种语音转录的准确性和转录效率。
-
公开(公告)号:CN110992974B
公开(公告)日:2021-08-24
申请号:CN201911164974.2
申请日:2019-11-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0216 , G10L25/30 , G10L25/03
Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号,其中麦克风阵列包括至少两个麦克风,例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征,然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式,本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征,能够解决语音增强和语音识别优化目标不一致的问题,从而能够联合优化语音增强和语音识别等目标,实现了语音增强和识别的端到端建模,提高了语音识别的准确率。
-
-
-
-
-
-
-
-
-