-
公开(公告)号:CN107564518B
公开(公告)日:2021-10-22
申请号:CN201710718772.2
申请日:2017-08-21
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/22 , G10L15/26 , G06F9/4401
Abstract: 本发明提出一种智能设备控制方法、装置及计算机设备,其中,该方法包括:对智能设备获取的语音信号进行语音识别,判断所述语音信号对应的控制指令是否与所述智能设备当前的工作场景匹配;若匹配,则根据所述控制指令对所述智能设备的工作状态进行调整。由此,无需唤醒词即可实现根据与当前工作场景匹配的控制指令对智能设备的控制,控制方式简单,提高了控制的灵活性,改善了用户体验。
-
公开(公告)号:CN110718223B
公开(公告)日:2021-02-12
申请号:CN201911033410.5
申请日:2019-10-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了语音交互控制的方法、装置、设备和介质,涉及语音技术。一种语音交互控制的方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息;至少基于声音信号的声学特征表示和/或与识别信息相关联的语义特征表示确定声音信号的交互置信度;确定识别信息与声音信号的匹配状况;提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。由此,可以准确判断区别人机交互的声音和非人机交互的声音,提高语音交互控制的准确度和智能度,提升人机交互的用户体验。
-
公开(公告)号:CN106843523B
公开(公告)日:2020-09-22
申请号:CN201611138387.2
申请日:2016-12-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F3/023
Abstract: 本发明提出一种基于人工智能的文字输入方法和装置,其中,方法包括:通过将用户所输入的拼音序列输入声学模型,得到候选文本以及其声学概率之后,针对候选文本,按照字的方式进行扩展,得到字组成的序列,进而在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定候选文本中各个字的语言概率,最后根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出,由于综合利用了声学模型以及语言模型确定目标文本,增大了目标文本为用户所需输入文本的可能性,解决现有技术中拼音输入法的输入准确性较低的技术问题。
-
公开(公告)号:CN107134279B
公开(公告)日:2020-06-19
申请号:CN201710525422.4
申请日:2017-06-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/22 , G10L15/30 , G10L15/32 , G10L15/197
Abstract: 本发明公开了一种语音唤醒方法、装置、终端和存储介质,属于语音识别技术领域。该方法包括:获取用于唤醒智能终端的唤醒语音;利用所述智能终端的预设声学模型和预设唤醒词识别网络,对所述唤醒语音的声学特征进行分析,获得所述唤醒语音相对预设唤醒词的声学特征的置信度;若所述置信度位于预设的中等置信度范围内,则将所述唤醒语音上传到远程服务器;若利用所述远程服务器中的语言模型对所述唤醒语音分析得到的语言特征,与所述预设唤醒词的语言特征匹配一致,则接收所述远程服务器生成的智能终端唤醒指令。本发明实施例提供的一种语音唤醒方法、装置、终端和存储介质,实现了用户对唤醒词的自定义。
-
公开(公告)号:CN109410918B
公开(公告)日:2020-01-24
申请号:CN201811198500.5
申请日:2018-10-15
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于获取信息的方法。该方法的一具体实施方式包括:从待处理语音信号中获取语音特征音频序列,上述语音特征音频序列用于表征待处理语音信号对应的文字;将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,上述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息,上述拼音单元用于识别单个文字;根据上述拼音信息查找对应上述待处理语音信号的文字信息。该实施方式降低了获取拼音信息的数据处理量和存储空间,提高了获取文字信息的准确性。
-
公开(公告)号:CN110706707A
公开(公告)日:2020-01-17
申请号:CN201911108242.1
申请日:2019-11-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 根据本公开的实施例,提供了用于语音交互的方法、装置、设备和计算机可读存储介质。该方法包括基于接收的语音信号的语音特征确定与语音信号相对应的文本。该方法还包括基于语音特征和文本,确定针对文本中的元素的参考语音特征与元素的目标语音特征之间的匹配程度。该方法还包括基于文本确定语音信号是可执行命令的第一可能性。该方法还包括基于语音特征确定语音信号是可执行命令的第二可能性。该方法还包括基于匹配程度、第一可能性和第二可能性来确定与对语音信号的处理有关的信息。通过该方法,可以从多个维度确定语音交互设备是否应该对所获得的声音信号进行响应,实现了更准确、智能地实现语音交互控制,提升了用户体验。
-
公开(公告)号:CN108520078A
公开(公告)日:2018-09-11
申请号:CN201810359754.4
申请日:2018-04-20
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明实施例提出一种视频识别方法和装置。该方法包括:从目标视频中提取目标音频;从目标音频中提取第一音频特征;查询索引库中是否存在与第一音频特征匹配的第二音频特征,所述索引库中包括各音频特征与其所属的视频的索引关系;如果查询到与第一音频特征匹配的第二音频特征,则获取第二音频特征所属的候选视频。本发明实施例根据索引库中各音频特征与其所属的视频的索引关系,能够根据目标视频的音频特征查找匹配的候选视频,从而有利于识别出于目标视频相似的视频,以便于后续对重复视频进行去除、筛选等处理。
-
公开(公告)号:CN107945792A
公开(公告)日:2018-04-20
申请号:CN201711079215.7
申请日:2017-11-06
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 钱胜
CPC classification number: G10L15/063 , G10L15/26 , G10L19/0018 , G10L2015/0635
Abstract: 本发明公开一种语音处理方法和装置,其中,方法包括:采集用于对解码器中的原始语言模型进行替换的训练语料,对训练语料中的每个字符进行编码处理,得到训练语料每个字符的编码数据,利用编码数据进行语言模型的训练,以得到目标语言模型,使用目标语言模型替换解码器中的原始语言模型,基于目标语言模型对获取的语音进行识别,得到语音的识别结果。该方法可以根据实际需要采集对原始语言模型进行替换的训练语料,将利用该训练语料得到目标语言模型替换原始语言模型进行语音识别,相比利用原始语言模型进行语音识别,提高了语音识别的准确率。
-
公开(公告)号:CN106710606A
公开(公告)日:2017-05-24
申请号:CN201611246698.0
申请日:2016-12-29
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种基于人工智能的语音处理方法及装置,其中,方法包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。本发明中,在对待解码的语音包的当前帧进行解码之前,根据声学模型的打分结果识别出当前帧是否需要解码,当不需要解码时,在解码时跳过当前帧,从而可以避免冗余解码,提升解码的速度,加快对待解码的语音包的识别。
-
公开(公告)号:CN105529028A
公开(公告)日:2016-04-27
申请号:CN201510903049.2
申请日:2015-12-09
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/187 , G10L25/51
CPC classification number: G10L15/187 , G10L25/51
Abstract: 本发明提出一种语音解析方法和装置,其中,方法包括:S1、接收输入的待检测语音信号;S2、分帧提取待检测语音信号的语音特征信息,根据语音特征信息和声学模型生成待检测语音信号的识别结果;S3、根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点;S4、计算待检测语音信号的置信度信息;S5、解析待检测语音信号的语义信息;以及S6、根据置信度信息和语义信息获取待检测语音信号对应的语音解析结果。本发明实施例的语音解析方法和装置,能够准确地识别语音的有效性,以及通过语义解析,确定语义是否与上下文相关,提高了语音识别系统的性能,使得多轮对话交互过程更加流畅,提升用户使用体验。
-
-
-
-
-
-
-
-
-