-
公开(公告)号:CN110992940B
公开(公告)日:2021-06-15
申请号:CN201911168794.1
申请日:2019-11-25
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的实施例,提供了一种语音交互的方法、装置、设备和存储介质,涉及语音交互领域。该方法包括:从接收的语音数据中提取声学特征,所述声学特征指示所述语音数据的短时幅度谱特性;将所述声学特征应用于类型识别模型以确定所述语音数据的意图类型,所述意图类型为交互意图类型和非交互意图类型中的一种,所述类型识别模型是基于训练语音数据的所述声学特征而构建的;以及根据确定所述意图类型为交互意图类型,执行所述语音数据所指示的交互操作。以此方式,提高了语音交互过程的正确性和便利性,改善了交互体验。
-
公开(公告)号:CN110866090A
公开(公告)日:2020-03-06
申请号:CN201911115505.1
申请日:2019-11-14
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/33 , G06F16/332 , G06F40/30 , G10L15/26
Abstract: 本公开的实施例涉及一种用于语音交互的方法、装置、电子设备和计算机可读存储介质。该方法可以包括确定与接收的语音信号相对应的文本信息。该方法进一步包括通过对所述文本信息中的元素进行标注,获取所述文本信息的标注信息。此外,该方法还包括基于所述标注信息确定所述文本信息的第一意图信息。并且,该方法进一步包括基于所述第一意图信息和所述标注信息,确定所述文本信息的语义。本公开的技术方案通过引入语义理解技术,从而可以基于语音识别的文本信息推导出语义结果。此外,结合改进的基于深度神经网络的语义理解模型以及线上的实时干预机制,从而可以获取正确率较高的语义结果。
-
公开(公告)号:CN110718223A
公开(公告)日:2020-01-21
申请号:CN201911033410.5
申请日:2019-10-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了语音交互控制的方法、装置、设备和介质,涉及语音技术。一种语音交互控制的方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息;至少基于声音信号的声学特征表示和/或与识别信息相关联的语义特征表示确定声音信号的交互置信度;确定识别信息与声音信号的匹配状况;提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。由此,可以准确判断区别人机交互的声音和非人机交互的声音,提高语音交互控制的准确度和智能度,提升人机交互的用户体验。
-
公开(公告)号:CN111723901B
公开(公告)日:2024-01-12
申请号:CN201910208661.6
申请日:2019-03-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06N3/082 , G06N3/084 , G06N3/042 , G06N3/0495 , G06N3/048
Abstract: 本发明提出一种神经网络模型的训练方法及装置,其中,该方法包括:获取神经网络初始模型;对所述神经网络初始模型的网络参数进行参数量化以生成参数量化神经网络模型;以及对所述参数量化神经网络模型进行激活量化。由于在训练神经网络模型的过程中,对网络参数和激活结果进行了量化,使应用比特乘法成为可能,实现了在保证神经网络模型的识别精度的前提下,极大地压缩了神经网络模型的深度和体积,极大地降低了神经网络模型在推理时的计算复杂度,加快了神经网络模型的推理速度。
-
公开(公告)号:CN110706707B
公开(公告)日:2020-09-18
申请号:CN201911108242.1
申请日:2019-11-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的实施例,提供了用于语音交互的方法、装置、设备和计算机可读存储介质。该方法包括基于接收的语音信号的语音特征确定与语音信号相对应的文本。该方法还包括基于语音特征和文本,确定针对文本中的元素的参考语音特征与元素的目标语音特征之间的匹配程度。该方法还包括基于文本确定语音信号是可执行命令的第一可能性。该方法还包括基于语音特征确定语音信号是可执行命令的第二可能性。该方法还包括基于匹配程度、第一可能性和第二可能性来确定与对语音信号的处理有关的信息。通过该方法,可以从多个维度确定语音交互设备是否应该对所获得的声音信号进行响应,实现了更准确、智能地实现语音交互控制,提升了用户体验。
-
公开(公告)号:CN105551483B
公开(公告)日:2020-02-04
申请号:CN201510920809.0
申请日:2015-12-11
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06
Abstract: 本发明提出一种语音识别的建模方法和装置,上述语音识别的建模方法包括:将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。本发明基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。
-
公开(公告)号:CN109036384B
公开(公告)日:2019-11-15
申请号:CN201811036633.2
申请日:2018-09-06
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了语音识别方法和装置。该方法的一具体实施方式包括:从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本;将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列;基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征;采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度。该实施方式提升了声学置信度判决精度。
-
公开(公告)号:CN111709513B
公开(公告)日:2023-06-09
申请号:CN201910202820.1
申请日:2019-03-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06N3/0442 , G06N3/084
Abstract: 本申请提出一种长短期记忆网络LSTM的训练系统及方法。其中,所述系统包括:主模型处理器,用于存储并维护LSTM的主模型,其中,LSTM的主模型包括第一至第M个网络层,M为正整数;以及第一至第N处理器,用于分别根据LSTM的主模型生成本地副模型,第一至第N处理器分别包括第一至第M个处理单元,第一至第M个处理单元分别用于训练第一至第M个网络层,其中,N为正整数,第一至第M个处理单元中至少一个处理单元为半精度计算模式,其他处理单元为单精度计算模式。由此,通过这种LSTM的训练系统,在LSTM模型训练中采用半精度/单精度浮点的混合数值表示,不仅提升了模型训练的速度,而且提高了模型的精度与性能。
-
公开(公告)号:CN111709513A
公开(公告)日:2020-09-25
申请号:CN201910202820.1
申请日:2019-03-18
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提出一种长短期记忆网络LSTM的训练系统及方法。其中,所述系统包括:主模型处理器,用于存储并维护LSTM的主模型,其中,LSTM的主模型包括第一至第M个网络层,M为正整数;以及第一至第N处理器,用于分别根据LSTM的主模型生成本地副模型,第一至第N处理器分别包括第一至第M个处理单元,第一至第M个处理单元分别用于训练第一至第M个网络层,其中,N为正整数,第一至第M个处理单元中至少一个处理单元为半精度计算模式,其他处理单元为单精度计算模式。由此,通过这种LSTM的训练系统,在LSTM模型训练中采用半精度/单精度浮点的混合数值表示,不仅提升了模型训练的速度,而且提高了模型的精度与性能。
-
公开(公告)号:CN110992974A
公开(公告)日:2020-04-10
申请号:CN201911164974.2
申请日:2019-11-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0216 , G10L25/30 , G10L25/03
Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号,其中麦克风阵列包括至少两个麦克风,例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征,然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式,本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征,能够解决语音增强和语音识别优化目标不一致的问题,从而能够联合优化语音增强和语音识别等目标,实现了语音增强和识别的端到端建模,提高了语音识别的准确率。
-
-
-
-
-
-
-
-
-