-
公开(公告)号:CN105096944B
公开(公告)日:2017-11-03
申请号:CN201510427908.5
申请日:2015-07-20
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/183 , G10L15/26
CPC classification number: G06F17/30 , G10L15/183 , G10L15/26
Abstract: 本发明公开了一种语音识别方法及装置,其中所述方法包括:根据语音信息识别得到发音信息;根据所述查分树信息加载语言模型查分树,查询所述语言模型查分树确定与所述发音信息匹配的文字识别结果的概率得分;其中,所述查分树信息包括与文字对应的多个节点,每个节点至少包括当前节点与子节点之间的存储位置偏移量;根据所述概率得分选择文字识别结果,作为最终的识别结果。本发明实施例通过在启动时直接根据当前节点与子节点之间的存储位置偏移量加载语言模型查分树,这样大大的缩短了启动时间。
-
公开(公告)号:CN105096939B
公开(公告)日:2017-07-25
申请号:CN201510399209.4
申请日:2015-07-08
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种语音唤醒方法和装置,其中,语音唤醒方法包括:S1、获取唤醒词,并根据唤醒词生成符合预设条件的垃圾词,以及根据唤醒词和垃圾词构建识别网络;S2、获取用户输入的语音信息,将语音信息切分为多个语音帧,并提取每个语音帧中的声学特征;S3、基于卷积神经网络声学模型对多个声学特征依次进行似然计算,以获得每个声学特征的声学特征得分;S4、根据声学特征得分从识别网络中选取最优识别路径,以及将最优识别路径对应的语音结果作为识别结果;以及S5、根据识别结果计算识别结果对应的置信度,并根据置信度获得唤醒结果并输出。本发明实施例的语音唤醒方法和装置,计算量小,功耗低,能够降低语音唤醒的误报率,提升用户使用体验。
-
公开(公告)号:CN105118502A
公开(公告)日:2015-12-02
申请号:CN201510413643.3
申请日:2015-07-14
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/04 , G10L15/02 , G10L15/16 , G10L21/0208
Abstract: 本发明提出一种语音识别系统的端点检测方法及系统,其中,该方法包括:基于长短时记忆神经网络训练声学识别模型;通过预设语音端点检测算法初步识别出待识别语音信号的语音端点;分帧提取待识别语音信号的语音特征信息,并将语音特征信息输入声学识别模型,以使声学识别模型根据语音特征信息生成待识别语音信号的声学识别结果;以及根据声学识别结果对初步识别出的语音端点进行调整。本发明实施例的语音识别系统的端点检测方法,提供了一种通过声学识别结果对初步识别出的语音端点进行调整的端点检测方式,准确定位了待识别语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别系统的性能。
-
公开(公告)号:CN105096944A
公开(公告)日:2015-11-25
申请号:CN201510427908.5
申请日:2015-07-20
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/183 , G10L15/26
CPC classification number: G06F17/30 , G10L15/183 , G10L15/26
Abstract: 本发明公开了一种语音识别方法及装置,其中所述方法包括:根据语音信息识别得到发音信息;根据所述查分树信息加载语言模型查分树,查询所述语言模型查分树确定与所述发音信息匹配的文字识别结果的概率得分;其中,所述查分树信息包括与文字对应的多个节点,每个节点至少包括当前节点与子节点之间的存储位置偏移量;根据所述概率得分选择文字识别结果,作为最终的识别结果。本发明实施例通过在启动时直接根据当前节点与子节点之间的存储位置偏移量加载语言模型查分树,这样大大的缩短了启动时间。
-
公开(公告)号:CN105096940A
公开(公告)日:2015-11-25
申请号:CN201510375427.4
申请日:2015-06-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06
Abstract: 本发明提供了一种用于进行语音识别的方法和装置,其中,该方法包括以下步骤:接收用户输入的待识别语音信息;对所述待识别语音信息进行特征提取,以获取所述待识别语音信息的特征信息;将所述特征信息在所述用户对应的个人语音特征库中进行匹配,以获取所述待识别语音信息的识别结果,其中,所述用户对应的个人语音特征库用于专门针对该用户的语音信息进行识别;输出所述待识别语音信息的识别结果。根据本发明的方案,能够提高语音识别准确率。
-
公开(公告)号:CN104538024A
公开(公告)日:2015-04-22
申请号:CN201410720550.0
申请日:2014-12-01
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供了语音合成方法、装置和设备。该方法包括:获取待处理文本的语境信息;根据所述语境信息利用时长预测模型确定语音时长,其中所述时长预测模型是基于深度神经网络训练得到;根据所述语境信息及所述语音时长,利用谱和基频预测模型确定谱和基频特征参数;根据所述谱和基频特征参数得到合成语音。本发明提供的语音合成方法能够提供高音质、自然流畅的语音。
-
公开(公告)号:CN103971681A
公开(公告)日:2014-08-06
申请号:CN201410168436.1
申请日:2014-04-24
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供了一种语音识别方法,包括:采集第一音频数据;利用第一模型和第二模型,对所述第一音频数据进行语音识别,以获得语音识别结果;其中,所述第一模型用于识别所述第一音频数据中所包含的客户端所播放的第二音频数据,所述第二模型用于识别所述第一音频数据中所包含的除了所述客户端所播放的第二音频数据之外的第三音频数据;本发明实施例还提供一种语音识别系统。根据本发明实施例提供的技术方案,可以实现提高语音识别系统中语音唤醒的成功率。
-
公开(公告)号:CN103915092A
公开(公告)日:2014-07-09
申请号:CN201410129541.4
申请日:2014-04-01
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/01 , G10L15/02 , G10L15/08 , G10L15/183 , G10L19/0208 , G10L19/022
Abstract: 本发明提出一种语音识别方法和装置,该语音识别方法包括采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。该方法能够不依赖网络实现语音识别。
-
公开(公告)号:CN110992940B
公开(公告)日:2021-06-15
申请号:CN201911168794.1
申请日:2019-11-25
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的实施例,提供了一种语音交互的方法、装置、设备和存储介质,涉及语音交互领域。该方法包括:从接收的语音数据中提取声学特征,所述声学特征指示所述语音数据的短时幅度谱特性;将所述声学特征应用于类型识别模型以确定所述语音数据的意图类型,所述意图类型为交互意图类型和非交互意图类型中的一种,所述类型识别模型是基于训练语音数据的所述声学特征而构建的;以及根据确定所述意图类型为交互意图类型,执行所述语音数据所指示的交互操作。以此方式,提高了语音交互过程的正确性和便利性,改善了交互体验。
-
公开(公告)号:CN110674241B
公开(公告)日:2020-11-20
申请号:CN201910942945.8
申请日:2019-09-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/29 , G06F16/638 , G06F9/451
Abstract: 本申请公开了地图播报的管理方法、装置、电子设备和存储介质,涉及语音技术领域,具体实现方案为:提供语音包管理界面,其中,语音包管理界面包括多个候选语音包,每个候选语音包对应时间标识,其中,多个候选语音包按照时间标识的顺序排列;获取用户选择的候选语音包,并将用户选择的候选语音包作为当前语音包;以及根据当前语音包生成地图播报语音。该方法通过语音包管理界面提供包含时间标识的多个候选语音包供用户选择,用户可以根据需要选择语音包,不仅可以满足用户的个性化需求,而且可以方便灵活地使用不同时间的语音包进行地图播报。
-
-
-
-
-
-
-
-
-