-
公开(公告)号:CN111429889B
公开(公告)日:2023-04-28
申请号:CN201910016861.1
申请日:2019-01-08
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质。方法包括获得用于截断输入的语音信号的特征序列的截断信息,然后基于截断信息来将特征序列截断成多个子序列。方法还包括针对每个子序列,通过注意力机制来获得实时识别结果。本公开的实施例通过在传统的注意力模型中引入根据语音信号而确定的截断信息,能够指导注意力模型针对每个截断分别进行注意力建模,不仅能够实现实时的语音识别,而且能够保证很高的识别准确率。此外,可选地,本公开的一些实施例所提出的双头结构能够保证实时语音识别过程的计算量较小,本公开的一些实施例所提出的多级注意力结构能够进一步提升语音识别的准确率。
-
公开(公告)号:CN110827799B
公开(公告)日:2022-06-10
申请号:CN201911146748.1
申请日:2019-11-21
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的实施例,提供了用于处理语音信号的方法、装置、设备和计算机可读存储介质。该方法包括获取所接收的语音信号的语音特征表示集合。该方法还包括基于从语音信号识别的文本,生成源文本特征表示集合,每个源文本特征表示与文本中的一个元素相对应。该方法还包括基于语音特征表示集合和源文本特征表示集合,生成目标文本特征表示集合。该方法还包括确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度,匹配程度指示对文本的识别的正确性。通过该方法,可以使得语音判定结果更准确,同时使得人机之间的交互更加顺畅,提升了人机交互的体验。
-
公开(公告)号:CN110992974B
公开(公告)日:2021-08-24
申请号:CN201911164974.2
申请日:2019-11-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0216 , G10L25/30 , G10L25/03
Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号,其中麦克风阵列包括至少两个麦克风,例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征,然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式,本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征,能够解决语音增强和语音识别优化目标不一致的问题,从而能够联合优化语音增强和语音识别等目标,实现了语音增强和识别的端到端建模,提高了语音识别的准确率。
-
公开(公告)号:CN110718223B
公开(公告)日:2021-02-12
申请号:CN201911033410.5
申请日:2019-10-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了语音交互控制的方法、装置、设备和介质,涉及语音技术。一种语音交互控制的方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息;至少基于声音信号的声学特征表示和/或与识别信息相关联的语义特征表示确定声音信号的交互置信度;确定识别信息与声音信号的匹配状况;提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。由此,可以准确判断区别人机交互的声音和非人机交互的声音,提高语音交互控制的准确度和智能度,提升人机交互的用户体验。
-
公开(公告)号:CN111723901A
公开(公告)日:2020-09-29
申请号:CN201910208661.6
申请日:2019-03-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种神经网络模型的训练方法及装置,其中,该方法包括:获取神经网络初始模型;对所述神经网络初始模型的网络参数进行参数量化以生成参数量化神经网络模型;以及对所述参数量化神经网络模型进行激活量化。由于在训练神经网络模型的过程中,对网络参数和激活结果进行了量化,使应用比特乘法成为可能,实现了在保证神经网络模型的识别精度的前提下,极大地压缩了神经网络模型的深度和体积,极大地降低了神经网络模型在推理时的计算复杂度,加快了神经网络模型的推理速度。
-
公开(公告)号:CN108877782B
公开(公告)日:2020-09-11
申请号:CN201810726721.9
申请日:2018-07-04
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了语音识别方法和装置。该方法的一具体实施方式包括:获取语音,将该语音输入预先训练的声学模型,基于该声学模型的输出,得到语音识别结果;以及该声学模型的构建步骤包括:确定预设的语料库中语音的标注文本的发音单元,得到该标注文本的发音单元序列;对该发音单元序列中的至少两个相邻的发音单元进行组合,生成包含组合的语音的标注序列;基于各个语音的标注序列,训练得到该声学模型。本申请实施例能够增强声学模型对包括不同语言的语音的识别能力,提高声学模型的准确性。
-
公开(公告)号:CN111429889A
公开(公告)日:2020-07-17
申请号:CN201910016861.1
申请日:2019-01-08
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质。方法包括获得用于截断输入的语音信号的特征序列的截断信息,然后基于截断信息来将特征序列截断成多个子序列。方法还包括针对每个子序列,通过注意力机制来获得实时识别结果。本公开的实施例通过在传统的注意力模型中引入根据语音信号而确定的截断信息,能够指导注意力模型针对每个截断分别进行注意力建模,不仅能够实现实时的语音识别,而且能够保证很高的识别准确率。此外,可选地,本公开的一些实施例所提出的双头结构能够保证实时语音识别过程的计算量较小,本公开的一些实施例所提出的多级注意力结构能够进一步提升语音识别的准确率。
-
公开(公告)号:CN110706707A
公开(公告)日:2020-01-17
申请号:CN201911108242.1
申请日:2019-11-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的实施例,提供了用于语音交互的方法、装置、设备和计算机可读存储介质。该方法包括基于接收的语音信号的语音特征确定与语音信号相对应的文本。该方法还包括基于语音特征和文本,确定针对文本中的元素的参考语音特征与元素的目标语音特征之间的匹配程度。该方法还包括基于文本确定语音信号是可执行命令的第一可能性。该方法还包括基于语音特征确定语音信号是可执行命令的第二可能性。该方法还包括基于匹配程度、第一可能性和第二可能性来确定与对语音信号的处理有关的信息。通过该方法,可以从多个维度确定语音交互设备是否应该对所获得的声音信号进行响应,实现了更准确、智能地实现语音交互控制,提升了用户体验。
-
公开(公告)号:CN105185373B
公开(公告)日:2017-04-05
申请号:CN201510477652.9
申请日:2015-08-06
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/10
Abstract: 本发明提出一种韵律层级预测模型的生成及韵律层级预测方法和装置,该韵律层级预测模型的生成方法包括:根据精标数据集生成初始的韵律层级预测模型;收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置;根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。该方法能够提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。
-
-
-
-
-
-
-
-