-
公开(公告)号:CN111627423B
公开(公告)日:2023-08-04
申请号:CN201910147062.8
申请日:2019-02-27
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供一种VAD尾点检测方法和智能设备,通过确定语音包中包含VAD尾点的概率pa,并在解码语音包后,确定与语音包对应的文字指令的语义完整性的概率pn,根据pa、pn和预设的阈值,确定语音包是否包含VAD尾点,从而将声学VAD检测和语义VAD检测相结合,实现VAD尾点检测;本公开VAD尾点检测更加准确,可以避免语音停顿导致的误检,并解决语音包中VAD尾点过长导致的反应迟钝的问题,提升语音人机交互过程中的用户体验。本公开还提供一种服务器和计算机可读介质。
-
公开(公告)号:CN111627452A
公开(公告)日:2020-09-04
申请号:CN201910152119.3
申请日:2019-02-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供一种语音解码方法、装置和终端设备,该方法包括:基于第一语言模型和声学模型获取语音信号的第一解码结果集,以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集,其中,所述第一解码结果集包括至少一个第一解码结果,所述第二解码结果集包括至少一个第二解码结果;建立包括N个第一解码结果和M个第二解码结果的时间序列;将所述时间序列包括的解码结果按照在所述时间序列的时间顺序输入至LSTM模型进行联合预测,以得到所述时间序列内每个解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果。本发明实施例可以提高语音信号的解码准确度。
-
公开(公告)号:CN110718223A
公开(公告)日:2020-01-21
申请号:CN201911033410.5
申请日:2019-10-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了语音交互控制的方法、装置、设备和介质,涉及语音技术。一种语音交互控制的方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息;至少基于声音信号的声学特征表示和/或与识别信息相关联的语义特征表示确定声音信号的交互置信度;确定识别信息与声音信号的匹配状况;提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。由此,可以准确判断区别人机交互的声音和非人机交互的声音,提高语音交互控制的准确度和智能度,提升人机交互的用户体验。
-
公开(公告)号:CN108510990A
公开(公告)日:2018-09-07
申请号:CN201810726566.0
申请日:2018-07-04
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/28 , G10L19/0019
Abstract: 本发明实施例提供一种语音识别方法、装置、计算机设备及存储介质,接收到用户输入的语音信号后,同时采用高频解码器和通用解码器对语音信号进行解码,解码过程中,采用高频解码器获得至少一个第一解码结果,采用通用解码器获得至少一个第二解码结果,根据至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果。该过程中,高频解码器和通用解码器分别使用不同的语音模型进行解码,可以平衡高频识别的准确性和通用识别的泛化性,避免将通用语言模型和高频语言模型融合造成的准确性和泛化性无法兼顾的问题,从而提升了语音识别的准确率。
-
公开(公告)号:CN111627452B
公开(公告)日:2023-05-23
申请号:CN201910152119.3
申请日:2019-02-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供一种语音解码方法、装置和终端设备,该方法包括:基于第一语言模型和声学模型获取语音信号的第一解码结果集,以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集,其中,所述第一解码结果集包括至少一个第一解码结果,所述第二解码结果集包括至少一个第二解码结果;建立包括N个第一解码结果和M个第二解码结果的时间序列;将所述时间序列包括的解码结果按照在所述时间序列的时间顺序输入至LSTM模型进行联合预测,以得到所述时间序列内每个解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果。本发明实施例可以提高语音信号的解码准确度。
-
公开(公告)号:CN110718223B
公开(公告)日:2021-02-12
申请号:CN201911033410.5
申请日:2019-10-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了语音交互控制的方法、装置、设备和介质,涉及语音技术。一种语音交互控制的方法包括获得语音交互设备处的声音信号和从声音信号识别的识别信息;至少基于声音信号的声学特征表示和/或与识别信息相关联的语义特征表示确定声音信号的交互置信度;确定识别信息与声音信号的匹配状况;提供交互置信度和匹配状况以用于控制语音交互设备对声音信号的响应。由此,可以准确判断区别人机交互的声音和非人机交互的声音,提高语音交互控制的准确度和智能度,提升人机交互的用户体验。
-
公开(公告)号:CN111627423A
公开(公告)日:2020-09-04
申请号:CN201910147062.8
申请日:2019-02-27
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供一种VAD尾点检测方法和智能设备,通过确定语音包中包含VAD尾点的概率pa,并在解码语音包后,确定与语音包对应的文字指令的语义完整性的概率pn,根据pa、pn和预设的阈值,确定语音包是否包含VAD尾点,从而将声学VAD检测和语义VAD检测相结合,实现VAD尾点检测;本公开VAD尾点检测更加准确,可以避免语音停顿导致的误检,并解决语音包中VAD尾点过长导致的反应迟钝的问题,提升语音人机交互过程中的用户体验。本公开还提供一种服务器和计算机可读介质。
-
-
-
-
-
-