Patent search ap:("百度在线网络技术(北京)有限公司") AND inv:"钱胜" Page 5

41.

发明公开
语音数据处理方法、装置、设备及存储介质有权

公开(公告)号：CN107808670A

公开(公告)日：2018-03-16

申请号：CN201711010711.7

申请日：2017-10-25

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 常先堂 , 李维高 , 钱胜

IPC: G10L15/22 , G10L15/26 , G10L15/30 , G06F9/4401

CPC classification number: G10L15/26 , G06F9/4418 , G10L15/22 , G10L15/30

Abstract: 本发明公开了语音数据处理方法、装置、设备及存储介质，其中方法包括：客户端获取语音数据，利用语音唤醒引擎对获取到的语音数据进行唤醒识别，并将获取到的语音数据保存到循环缓存队列中；客户端获取语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果，若唤醒识别结果为确认唤醒，且确定当前处于oneshot情况，则确定出截取起始位置，并获取循环缓存队列中从截取起始位置开始到队列尾端的缓存数据，缓存数据中至少包括识别内容；客户端将缓存数据发送给语音识别引擎，以便语音识别引擎对缓存数据中的识别内容进行语音识别。应用本发明所述方案，能够提高语音识别结果的准确性等。

42.

发明公开
英文语音信息的文本转换方法和装置有权

公开(公告)号：CN107731228A

公开(公告)日：2018-02-23

申请号：CN201710854473.1

申请日：2017-09-20

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 程强 , 钱胜

IPC: G10L15/26 , G10L15/18 , G10L13/08

Abstract: 本发明提出了一种英文语音信息的文本转换方法和装置，其中，方法包括：接收用户输入的英文语音信息，根据预设算法确定目标语音识别模型，应用目标语音识别模型标识英文语音信息的原始音素；应用对英文文本预先训练的注音模型和预设的概率模型对原始音素进行匹配，确定匹配成功的目标音素；获取与目标音素对应的目标英文文本，并将目标英文文本显示在语音转换文本框中。由此，通过根据英文语音的发音进行注音，并对注音结果标准化处理后进行英文文本的转化，实现了对英文语音的识别，识别准确度高且扩展了语音识别的应用领域。

43.

发明授权
语音数据处理方法、装置、设备及存储介质有权

公开(公告)号：CN107808670B

公开(公告)日：2021-05-14

申请号：CN201711010711.7

申请日：2017-10-25

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 常先堂 , 李维高 , 钱胜

IPC: G10L15/22 , G10L15/26 , G10L15/30 , G06F9/4401

Abstract: 本发明公开了语音数据处理方法、装置、设备及存储介质，其中方法包括：客户端获取语音数据，利用语音唤醒引擎对获取到的语音数据进行唤醒识别，并将获取到的语音数据保存到循环缓存队列中；客户端获取语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果，若唤醒识别结果为确认唤醒，且确定当前处于oneshot情况，则确定出截取起始位置，并获取循环缓存队列中从截取起始位置开始到队列尾端的缓存数据，缓存数据中至少包括识别内容；客户端将缓存数据发送给语音识别引擎，以便语音识别引擎对缓存数据中的识别内容进行语音识别。应用本发明所述方案，能够提高语音识别结果的准确性等。

44.

发明公开
基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质审中-公开

公开(公告)号：CN112242144A

公开(公告)日：2021-01-19

申请号：CN201910646762.1

申请日：2019-07-17

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 邵俊尧 , 钱胜 , 贾磊

IPC: G10L19/008 , G10L15/26

Abstract: 本公开提供了一种基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质。方法包括使用流式注意力模型生成用于解码语音的多个声学路径，然后将多个声学路径中最后一个发音相同的声学路径进行合并以获得多个合并的声学路径。方法还包括从多个合并的声学路径中选择预定数目个声学路径作为保留的候选声学路径。本公开的实施例提出了当前发音片段的声学得分计算只受其前一发音片段的影响而与更早的发音历史无关的思路，通过将多个候选声学路径中最后一个发音相同的若干个声学路径进行合并，能够提升基于流式注意力模型的语音识别系统的准确率和解码速度。

45.

发明授权
英文语音信息的文本转换方法和装置有权

公开(公告)号：CN107731228B

公开(公告)日：2020-11-03

申请号：CN201710854473.1

申请日：2017-09-20

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 程强 , 钱胜

IPC: G10L15/26 , G10L15/18 , G10L13/08

Abstract: 本发明提出了一种英文语音信息的文本转换方法和装置，其中，方法包括：接收用户输入的英文语音信息，根据预设算法确定目标语音识别模型，应用目标语音识别模型标识英文语音信息的原始音素；应用对英文文本预先训练的注音模型和预设的概率模型对原始音素进行匹配，确定匹配成功的目标音素；获取与目标音素对应的目标英文文本，并将目标英文文本显示在语音转换文本框中。由此，通过根据英文语音的发音进行注音，并对注音结果标准化处理后进行英文文本的转化，实现了对英文语音的识别，识别准确度高且扩展了语音识别的应用领域。

46.

发明授权
语音识别方法和装置有权

公开(公告)号：CN105575386B

公开(公告)日：2019-07-30

申请号：CN201510956467.8

申请日：2015-12-18

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 潘复平 , 钱胜 , 贺利强 , 黄辰

IPC: G10L15/02 , G10L15/06 , G10L15/22

Abstract: 本发明公开了一种语音识别方法和装置，其中，该方法包括：获取待识别语音数据，提取其语音特征；根据第一语言模型和第二语言模型同时对语音特征进行解码，得到第一语音识别结果和第二语音识别结果、以及在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率；根据第一累计概率和第二累计概率确定最终识别结果；根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。本发明实施例的语音识别方法能够提供稳定可靠的语音识别环境，保证人机交互的顺畅性。

47.

发明授权
语音解析方法和装置有权

公开(公告)号：CN105529028B

公开(公告)日：2019-07-30

申请号：CN201510903049.2

申请日：2015-12-09

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 贺利强 , 潘复平 , 钱胜 , 万广鲁

IPC: G10L15/187 , G10L25/51

Abstract: 本发明提出一种语音解析方法和装置，其中，方法包括：S1、接收输入的待检测语音信号；S2、分帧提取待检测语音信号的语音特征信息，根据语音特征信息和声学模型生成待检测语音信号的识别结果；S3、根据识别结果和预设静音检测算法初步检测出待检测语音信号的语音端点；S4、计算待检测语音信号的置信度信息；S5、解析待检测语音信号的语义信息；以及S6、根据置信度信息和语义信息获取待检测语音信号对应的语音解析结果。本发明实施例的语音解析方法和装置，能够准确地识别语音的有效性，以及通过语义解析，确定语义是否与上下文相关，提高了语音识别系统的性能，使得多轮对话交互过程更加流畅，提升用户使用体验。

48.

发明授权
语音识别方法和装置有权

公开(公告)号：CN105529027B

公开(公告)日：2019-05-31

申请号：CN201510925644.6

申请日：2015-12-14

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 钱胜 , 潘复平

IPC: G10L15/06 , G10L19/008 , G10L15/26

CPC classification number: G10L15/183 , G10L15/02 , G10L15/08 , G10L15/14 , G10L19/008 , G10L2015/0631

Abstract: 本发明提出一种语音识别方法和装置，其中，该语音识别方法，包括以下步骤：接收语音信号；根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码，并在解码过程中动态添加空白单元，以得到添加空白单元后的最优解码路径，其中，所述声学模型是基于连接时序分类训练得到的，所述声学模型中包括基本发音单元和所述空白单元，所述解码网络由所述基本发音单元构成的多个解码路径组成；将所述最优解码路径输出为所述语音信号的识别结果。本发明的语音识别方法，能够提高语音识别的准确性，并提高识别过程中的解码速度。

49.

发明公开
用于获取信息的方法及装置有权

公开(公告)号：CN109410918A

公开(公告)日：2019-03-01

申请号：CN201811198500.5

申请日：2018-10-15

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 钱胜 , 王知践 , 李俊博

IPC: G10L15/02 , G10L15/08 , G10L15/18 , G10L15/26

Abstract: 本申请实施例公开了用于获取信息的方法。该方法的一具体实施方式包括：从待处理语音信号中获取语音特征音频序列，上述语音特征音频序列用于表征待处理语音信号对应的文字；将上述语音特征音频序列导入拼音识别模型，得到对应上述语音特征音频序列的拼音信息，上述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息，上述拼音单元用于识别单个文字；根据上述拼音信息查找对应上述待处理语音信号的文字信息。该实施方式降低了获取拼音信息的数据处理量和存储空间，提高了获取文字信息的准确性。

50.

发明公开
基于人工智能的语音处理方法及装置有权

公开(公告)号：CN108231089A

公开(公告)日：2018-06-29

申请号：CN201611132359.X

申请日：2016-12-09

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 王知践 , 钱胜

IPC: G10L25/51 , G10L25/30 , G10L25/78 , G10L19/00

Abstract: 本发明提出一种基于人工智能的语音处理方法及装置，其中，方法包括：对待解码的语音进行静音检测，如果检测出待解码的语音为静音语音，截断待解码的语音得到目标语音，利用预设的静音帧的尾部特征重置目标语音的尾部特征，对重置后的目标语音进行CTC解码处理。本发明中，在待解码的语音携带大量空白帧时，对待解码的语音进行截断，并利用静音帧的尾部特征去替换目标语音的尾部特征，使得目标语音的尾部特征在进行CTC解码时，可以出现一个CTC尖峰，从而使待解码的语音中大量空白帧之前所携带的文本内容中的最后一个字能够快速上屏显示。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification