-
公开(公告)号:CN105513591B
公开(公告)日:2019-09-03
申请号:CN201510967532.7
申请日:2015-12-21
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种利用长短时记忆(LSTM)循环神经网络模型进行语音识别的方法和装置,其中方法包括:接收第t时刻的语音输入数据;根据预设规则选择第t‑1时刻至第t‑n时刻的LSTM隐含层状态,其中,n为正整数;根据选择的至少一个LSTM隐含层状态、第t时刻的输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。该方法和装置可以很好地解决深度循环神经网络的“余尾效应”,提高了语音识别的准确性。
-
公开(公告)号:CN103915092A
公开(公告)日:2014-07-09
申请号:CN201410129541.4
申请日:2014-04-01
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/01 , G10L15/02 , G10L15/08 , G10L15/183 , G10L19/0208 , G10L19/022
Abstract: 本发明提出一种语音识别方法和装置,该语音识别方法包括采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。该方法能够不依赖网络实现语音识别。
-
公开(公告)号:CN105551483B
公开(公告)日:2020-02-04
申请号:CN201510920809.0
申请日:2015-12-11
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06
Abstract: 本发明提出一种语音识别的建模方法和装置,上述语音识别的建模方法包括:将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。本发明基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。
-
公开(公告)号:CN105389772B
公开(公告)日:2018-09-07
申请号:CN201510876116.6
申请日:2015-12-02
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种基于图形处理器的数据处理方法和装置。其中,该数据处理方法包括:在中央处理器CPU内创建用于分别控制图形处理器GPU的第一线程和第二线程,其中,所述第一线程用于调用双向LSTM算法的前向层Kernel序列,所述第二线程用于调用双向LSTM算法的反向层Kernel序列;通过所述第一线程和所述第二线程控制所述GPU进行并行数据处理。本发明实施例的数据处理方法,有效的提高了GPU的执行效率,缩短了LSTM的计算过程的执行时间。
-
公开(公告)号:CN105575389B
公开(公告)日:2019-07-30
申请号:CN201510888241.9
申请日:2015-12-07
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种模型训练方法、系统和装置,该模型训练方法包括:接收管理节点发送的训练数据的描述信息、初始模型的模型参数和所述管理节点划分的服务节点与服务节点维护的模型参数的对应关系;根据所述训练数据的描述信息获得训练数据,并根据所述训练数据和所述初始模型的模型参数进行模型训练,获得更新后的模型参数;根据所述对应关系向服务节点发送所述更新后的模型参数中由所述服务节点维护的模型参数。本发明可以大幅提升模型训练的效率,同时使得海量规模(如上万小时)的语音数据训练深层模型成为可能,使得训练得到的模型可以覆盖更广泛的变化,因此可以显著提升模型的精度和推广性。
-
公开(公告)号:CN105575389A
公开(公告)日:2016-05-11
申请号:CN201510888241.9
申请日:2015-12-07
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/063 , G10L15/14
Abstract: 本发明提出一种模型训练方法、系统和装置,该模型训练方法包括:接收管理节点发送的训练数据的描述信息、初始模型的模型参数和所述管理节点划分的服务节点与服务节点维护的模型参数的对应关系;根据所述训练数据的描述信息获得训练数据,并根据所述训练数据和所述初始模型的模型参数进行模型训练,获得更新后的模型参数;根据所述对应关系向服务节点发送所述更新后的模型参数中由所述服务节点维护的模型参数。本发明可以大幅提升模型训练的效率,同时使得海量规模(如上万小时)的语音数据训练深层模型成为可能,使得训练得到的模型可以覆盖更广泛的变化,因此可以显著提升模型的精度和推广性。
-
公开(公告)号:CN105389772A
公开(公告)日:2016-03-09
申请号:CN201510876116.6
申请日:2015-12-02
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06T1/20 , G06F9/3867
Abstract: 本发明提出一种基于图形处理器的数据处理方法和装置。其中,该数据处理方法包括:在中央处理器CPU内创建用于分别控制图形处理器GPU的第一线程和第二线程,其中,所述第一线程用于调用双向LSTM算法的前向层Kernel序列,所述第二线程用于调用双向LSTM算法的反向层Kernel序列;通过所述第一线程和所述第二线程控制所述GPU进行并行数据处理。本发明实施例的数据处理方法,有效的提高了GPU的执行效率,缩短了LSTM的计算过程的执行时间。
-
公开(公告)号:CN103680496A
公开(公告)日:2014-03-26
申请号:CN201310704701.9
申请日:2013-12-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种基于深层神经网络的声学模型训练方法、主机和系统。所述基于深层神经网络的声学模型方法包括:算主机从主控主机获取原始深层神经网络的副本深层神经网络;所述运算主机基于训练数据对副本深层神经网络进行训练,且按照设定规律进入停止状态;当所述运算主机处于停止状态时,将所述副本深层神经网络的加权参数的变化量提供给所述主控主机;所述运算主机接收所述主控主机发送的原始深层神经网络的加权参数绝对值,并根据加权参数绝对值更新副本深层神经网络的加权参数。本发明公开的声学模型训练方法、主机和系统利用多台主机异步、并行的进行深层神经网络训练,大幅提高了深层神经网络训练的效率。
-
公开(公告)号:CN103915092B
公开(公告)日:2019-01-25
申请号:CN201410129541.4
申请日:2014-04-01
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种语音识别方法和装置,该语音识别方法包括采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。该方法能够不依赖网络实现语音识别。
-
公开(公告)号:CN103680496B
公开(公告)日:2016-08-10
申请号:CN201310704701.9
申请日:2013-12-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种基于深层神经网络的声学模型训练方法、主机和系统。所述基于深层神经网络的声学模型方法包括:算主机从主控主机获取原始深层神经网络的副本深层神经网络;所述运算主机基于训练数据对副本深层神经网络进行训练,且按照设定规律进入停止状态;当所述运算主机处于停止状态时,将所述副本深层神经网络的加权参数的变化量提供给所述主控主机;所述运算主机接收所述主控主机发送的原始深层神经网络的加权参数绝对值,并根据加权参数绝对值更新副本深层神经网络的加权参数。本发明公开的声学模型训练方法、主机和系统利用多台主机异步、并行的进行深层神经网络训练,大幅提高了深层神经网络训练的效率。
-
-
-
-
-
-
-
-
-