-
公开(公告)号:CN107679033B
公开(公告)日:2021-12-14
申请号:CN201710810545.2
申请日:2017-09-11
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/211 , G06F40/289 , G06F16/33
Abstract: 本发明公开了一种文本断句位置识别方法和装置,其中,方法包括:接收用户输入的连续语音信息,对连续语音信息进行识别生成对应的文本信息;对文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置;按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值;判断断句分值是否大于预设阈值,如果大于,则确定当前间隔位置为断句位置。由此,根据用户的个人意图进行断句,避免用户的误停顿或者语速快等原因对断句位置的误识别处理,提高了对用户输入的语音的断句的准确度,以便于语音识别准确率的提高。
-
公开(公告)号:CN107704275B
公开(公告)日:2021-07-23
申请号:CN201710786739.3
申请日:2017-09-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/22 , G10L15/30 , G10L15/06 , G06F9/4401 , G06F3/01
Abstract: 本发明提出一种智能设备唤醒方法、装置、服务器及智能设备,其中,该方法包括:获取智能设备发送的语音信号;对所述语音信号进行识别,确定所述语音信号对应的识别结果;在确定所述识别结果中与所述智能设备对应的任一唤醒词模型的匹配度大于阈值时,向所述智能设备下发唤醒指令。由此,通过利用服务器对语音信号进行识别及对智能设备进行唤醒控制,降低了唤醒过程中硬件性能的消耗,且使得用户可以利用自定义的唤醒词唤醒智能设备,丰富了唤醒词,提高了唤醒的灵活性,可以更好的满足用户的个性化需求,改善用户体验。
-
公开(公告)号:CN108231089B
公开(公告)日:2020-11-03
申请号:CN201611132359.X
申请日:2016-12-09
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种基于人工智能的语音处理方法及装置,其中,方法包括:对待解码的语音进行静音检测,如果检测出待解码的语音为静音语音,截断待解码的语音得到目标语音,利用预设的静音帧的尾部特征重置目标语音的尾部特征,对重置后的目标语音进行CTC解码处理。本发明中,在待解码的语音携带大量空白帧时,对待解码的语音进行截断,并利用静音帧的尾部特征去替换目标语音的尾部特征,使得目标语音的尾部特征在进行CTC解码时,可以出现一个CTC尖峰,从而使待解码的语音中大量空白帧之前所携带的文本内容中的最后一个字能够快速上屏显示。
-
公开(公告)号:CN109299223B
公开(公告)日:2020-05-15
申请号:CN201811198911.4
申请日:2018-10-15
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/33
Abstract: 本申请实施例公开了用于查询指令的方法及装置。该方法的一具体实施方式包括:获取第一查询指令,通过指令库描述文件查询与上述第一查询指令对应的指令编号,其中,上述指令库描述文件通过指令编号标识指令库中指令之间的查询关系;响应于存在与上述第一查询指令对应的至少一个指令编号,显示上述第一查询指令对应的页面,上述页面包含与上述至少一个指令编号对应的至少一个指令标识;响应于获取到与上述页面中的至少一个指令标识中的指令标识对应的第二查询指令,通过上述指令库描述文件查询与该指令标识对应的指令。该实施方式减小了获取指令过程中的数据处理量,有利于提高数据处理效率。
-
公开(公告)号:CN105513589B
公开(公告)日:2020-04-28
申请号:CN201510958150.8
申请日:2015-12-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/04 , G10L15/183
Abstract: 本申请公开了语音识别方法和装置。所述方法的一具体实施方式包括:将待识别的语音信息切分多帧语音片段;通过预设的解码网络,对语音片段逐帧进行声学模型打分和语言模型查分;基于得分结果,将解码网络中的至少一条解码路径对应的词序列,确定为语音识别结果;其中,在对一帧语音片段进行语言模型查分时,依次进行第一语言模型查分和第二语言模型查分。该实施方式实现了准确、高效的语音识别。
-
公开(公告)号:CN107704275A
公开(公告)日:2018-02-16
申请号:CN201710786739.3
申请日:2017-09-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F9/4401 , G06F3/01 , G10L15/06 , G10L15/22 , G10L15/30
CPC classification number: G06F9/4418 , G06F3/011 , G10L15/063 , G10L15/22 , G10L15/30 , G10L2015/223
Abstract: 本发明提出一种智能设备唤醒方法、装置、服务器及智能设备,其中,该方法包括:获取智能设备发送的语音信号;对所述语音信号进行识别,确定所述语音信号对应的识别结果;在确定所述识别结果中与所述智能设备对应的任一唤醒词模型的匹配度大于阈值时,向所述智能设备下发唤醒指令。由此,通过利用服务器对语音信号进行识别及对智能设备进行唤醒控制,降低了唤醒过程中硬件性能的消耗,且使得用户可以利用自定义的唤醒词唤醒智能设备,丰富了唤醒词,提高了唤醒的灵活性,可以更好的满足用户的个性化需求,改善用户体验。
-
公开(公告)号:CN107679033A
公开(公告)日:2018-02-09
申请号:CN201710810545.2
申请日:2017-09-11
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06F17/2775 , G06F17/271 , G06F17/30681 , G06F17/30684
Abstract: 本发明公开了一种文本断句位置识别方法和装置,其中,方法包括:接收用户输入的连续语音信息,对连续语音信息进行识别生成对应的文本信息;对文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置;按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值;判断断句分值是否大于预设阈值,如果大于,则确定当前间隔位置为断句位置。由此,根据用户的个人意图进行断句,避免用户的误停顿或者语速快等原因对断句位置的误识别处理,提高了对用户输入的语音的断句的准确度,以便于语音识别准确率的提高。
-
公开(公告)号:CN105161092A
公开(公告)日:2015-12-16
申请号:CN201510595577.6
申请日:2015-09-17
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/02 , G10L15/065
Abstract: 本发明公开了一种语音识别方法和装置。所述方法包括:对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;根据融合处理结果获取所述输入语音的识别结果。所述装置包括:似然值计算模块,用于对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;融合处理模块,用于将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;识别模块,用于根据融合处理结果获取所述输入语音的识别结果,增强了语音识别的鲁棒性,提高了识别准确度。
-
公开(公告)号:CN107527630B
公开(公告)日:2020-12-11
申请号:CN201710866643.8
申请日:2017-09-22
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请提出一种语音端点检测方法、装置和计算机设备,其中,上述语音端点检测方法包括:通过DNNVAD对输入的音频信号进行检测;当在所述音频信号中未检测到语音信号时,通过EVAD在所述音频信号中每N帧计算一次平均能量值;如果当前计算的N帧的音频信号的平均能量值大于或等于第一阈值,则通过DNNVAD从当前N帧的起始帧开始对所述音频信号进行语音检测,确定所述音频信号中语音信号的端点。本申请可以实现通过EVAD对音频信号中声音的起点进行检测,提高语音端点检测的速度,降低功耗,并在检测到声音起点之后,通过DNNVAD对音频信号进行语音检测,确定上述音频信号中语音信号的端点,提高了语音端点检测的精度。
-
公开(公告)号:CN109727603B
公开(公告)日:2020-11-03
申请号:CN201811467944.4
申请日:2018-12-03
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明涉及信息处理技术领域,公开了一种语音处理方法、装置、用户设备及存储介质,解决了在解码过程中,仅依赖上文信息,而不能有效利用下文信息的问题。所述方法包括:获取语音数据;根据声学模型,匹配得到语音数据中每个音节数据对应的声学得分以及解码路径;当viterbi解码到解码路径的分叉点,且要根据语言模型对解码路径的分叉点之后的音节数据进行匹配时,根据分叉点之后的音节数据对应的声学得分,对分叉点之后的解码路径进行裁剪;根据语言模型对裁剪后的解码路径上的音节数据进行匹配,得到语言得分;以及根据裁剪后的解码路径上的声学得分和语言得分,对语音数据逐帧进行viterbi解码。本发明实施例适用于语音数据的处理过程。
-
-
-
-
-
-
-
-
-