-
公开(公告)号:CN104821934A
公开(公告)日:2015-08-05
申请号:CN201510125685.7
申请日:2015-03-20
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06F21/32 , G06F21/31 , G06N7/005 , G06N99/005 , G10L15/265 , G10L17/02 , G10L17/04 , G10L17/24 , H04L29/06
Abstract: 本发明公开了一种基于人工智能的声纹登录方法,包括:S1、接收用户的登录请求,并获取用户的用户信息;S2、生成登录字符串,并根据用户信息对应的字符替代对照信息对登录字符串中的至少一个字符进行替换;S3、将替换之后的登录字符串提供至用户,并接收用户阅读登录字符串的语音信息;以及S4、根据用户阅读所述登录字符串的语音信息对用户进行登录验证。该方法一方面通过结合声纹和用户设置的字符替代对照信息的声纹验证方式,提高了声纹密码的安全性,另一方面按照用户喜好隐藏的字符满足了用户不希望密码被明文显示出来的心理需求,提升了用户体验,且提高了密码的安全性。本发明还公开了一种基于人工智能的声纹登录装置。
-
公开(公告)号:CN111429889B
公开(公告)日:2023-04-28
申请号:CN201910016861.1
申请日:2019-01-08
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质。方法包括获得用于截断输入的语音信号的特征序列的截断信息,然后基于截断信息来将特征序列截断成多个子序列。方法还包括针对每个子序列,通过注意力机制来获得实时识别结果。本公开的实施例通过在传统的注意力模型中引入根据语音信号而确定的截断信息,能够指导注意力模型针对每个截断分别进行注意力建模,不仅能够实现实时的语音识别,而且能够保证很高的识别准确率。此外,可选地,本公开的一些实施例所提出的双头结构能够保证实时语音识别过程的计算量较小,本公开的一些实施例所提出的多级注意力结构能够进一步提升语音识别的准确率。
-
公开(公告)号:CN110827799B
公开(公告)日:2022-06-10
申请号:CN201911146748.1
申请日:2019-11-21
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的实施例,提供了用于处理语音信号的方法、装置、设备和计算机可读存储介质。该方法包括获取所接收的语音信号的语音特征表示集合。该方法还包括基于从语音信号识别的文本,生成源文本特征表示集合,每个源文本特征表示与文本中的一个元素相对应。该方法还包括基于语音特征表示集合和源文本特征表示集合,生成目标文本特征表示集合。该方法还包括确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度,匹配程度指示对文本的识别的正确性。通过该方法,可以使得语音判定结果更准确,同时使得人机之间的交互更加顺畅,提升了人机交互的体验。
-
公开(公告)号:CN110992974B
公开(公告)日:2021-08-24
申请号:CN201911164974.2
申请日:2019-11-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L21/0216 , G10L25/30 , G10L25/03
Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号,其中麦克风阵列包括至少两个麦克风,例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征,然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式,本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征,能够解决语音增强和语音识别优化目标不一致的问题,从而能够联合优化语音增强和语音识别等目标,实现了语音增强和识别的端到端建模,提高了语音识别的准确率。
-
公开(公告)号:CN111354370B
公开(公告)日:2021-06-25
申请号:CN202010091799.5
申请日:2020-02-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种唇形特征预测方法、装置和电子设备,涉及虚拟技术领域。具体实现方案为:识别语音特征的PPG;使用神经网络模型对所述PPG进行预测,以预测到语音特征的唇形特征,其中,所述神经网络模型为使用训练样本进行训练得到输入包括PPG,输出包括唇形特征的神经网络模型,所述训练样本包括PPG训练样本和唇形特征训练样本。本申请可以提高预测唇形特征的准确性。
-
公开(公告)号:CN110718223B
公开(公告)日:2021-02-12
申请号:CN201911033410.5
申请日:2019-10-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了语音交互控制的方法、装置、设备和介质,涉及语音技术。一种语音交互控制的方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息;至少基于声音信号的声学特征表示和/或与识别信息相关联的语义特征表示确定声音信号的交互置信度;确定识别信息与声音信号的匹配状况;提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。由此,可以准确判断区别人机交互的声音和非人机交互的声音,提高语音交互控制的准确度和智能度,提升人机交互的用户体验。
-
公开(公告)号:CN112151003A
公开(公告)日:2020-12-29
申请号:CN201910569448.8
申请日:2019-06-27
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种并行语音合成方法、装置、设备以及计算机可读存储介质。方法包括将一段文本拆分成多个片段,然后根据这段文本获得多个片段的用于循环神经网络的多个初始隐状态。方法还包括基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。本公开的实施例在使用循环神经网络并行合成多个片段的过程中,通过隐状态预测模型为每个片段提供初始隐状态,不仅能够提升语音合成的速度,实现实时的语音合成,而且能够缓解片段之间的隐状态中断,由此保证合成语音的质量。
-
公开(公告)号:CN110534095B
公开(公告)日:2020-10-23
申请号:CN201910779740.2
申请日:2019-08-22
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括针对输入的语音信号,通过第一声学模型获得第一声学解码信息并且通过第二声学模型获得第二声学解码信息,其中第二声学模型是通过声学和语言的联合建模而生成的。方法还包括根据第一声学解码信息确定第一组候选识别结果并且根据第二声学解码信息确定第二组候选识别结果,然后基于这两组候选识别结果来确定针对语音信号的最终识别结果。本公开的实施例提出了一种基于双解码的语音识别方案,利用一个声学模型的声学多样性来弥补另一个声学模型声学路径较少的缺点,两个解码路径彼此独立,扩展了解码空间,从而能够提高语音识别的准确率。
-
公开(公告)号:CN111429889A
公开(公告)日:2020-07-17
申请号:CN201910016861.1
申请日:2019-01-08
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质。方法包括获得用于截断输入的语音信号的特征序列的截断信息,然后基于截断信息来将特征序列截断成多个子序列。方法还包括针对每个子序列,通过注意力机制来获得实时识别结果。本公开的实施例通过在传统的注意力模型中引入根据语音信号而确定的截断信息,能够指导注意力模型针对每个截断分别进行注意力建模,不仅能够实现实时的语音识别,而且能够保证很高的识别准确率。此外,可选地,本公开的一些实施例所提出的双头结构能够保证实时语音识别过程的计算量较小,本公开的一些实施例所提出的多级注意力结构能够进一步提升语音识别的准确率。
-
公开(公告)号:CN110795593A
公开(公告)日:2020-02-14
申请号:CN201910968514.9
申请日:2019-10-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/632 , G06F16/683 , G06F40/289
Abstract: 本申请公开了语音包的推荐方法、装置、电子设备和存储介质,涉及智能搜索技术领域,具体实现方案为:获取用户的搜索请求;对搜索请求进行识别以获取用户的音色兴趣标识;根据音色兴趣标识搜索对应的目标语音包,并推荐给用户。该方法通过对用户的搜索请求进行识别,获取用户的音色兴趣标识,根据用户的音色兴趣标识向用户推荐具有用户感兴趣的音色的语音包,实现了语音包的个性化推荐,无需用户通过逐一试听来选择语音包,操作简单,推荐精准,提高了智能化。
-
-
-
-
-
-
-
-
-