-
公开(公告)号:CN105513591B
公开(公告)日:2019-09-03
申请号:CN201510967532.7
申请日:2015-12-21
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种利用长短时记忆(LSTM)循环神经网络模型进行语音识别的方法和装置,其中方法包括:接收第t时刻的语音输入数据;根据预设规则选择第t‑1时刻至第t‑n时刻的LSTM隐含层状态,其中,n为正整数;根据选择的至少一个LSTM隐含层状态、第t时刻的输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。该方法和装置可以很好地解决深度循环神经网络的“余尾效应”,提高了语音识别的准确性。
-
公开(公告)号:CN103400577B
公开(公告)日:2015-09-16
申请号:CN201310332146.1
申请日:2013-08-01
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种多语种语音识别的声学模型建立方法和装置,所述方法包括:利用全部语音特征数据训练深度神经网络;利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层;以及将所述对应于不同语种的多个输出层合并成为总输出层。本发明公开的多语种语音识别的声学模型建立方法使用深度神经网络建立多语种语音识别的声学模型,实现了对多语种语音的识别,提高了语音识别的准确性。
-
公开(公告)号:CN103680493A
公开(公告)日:2014-03-26
申请号:CN201310703949.3
申请日:2013-12-19
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/07 , G10L15/005 , G10L15/01 , G10L15/02 , G10L15/06 , G10L25/84 , G10L25/90
Abstract: 本发明公开了一种区分地域性口音的语音数据识别方法和装置。所述区分地域性口音的语音数据识别方法包括:计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据;根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。本发明公开的区分地域性口音的语音数据识别方法和装置通过计算语音数据的置信度和信噪比将地域性语音数据自动的从海量的语音数据中识别出来,避免了对语音数据进行人工标注,提高了语音数据处理的效率。
-
公开(公告)号:CN105575389B
公开(公告)日:2019-07-30
申请号:CN201510888241.9
申请日:2015-12-07
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种模型训练方法、系统和装置,该模型训练方法包括:接收管理节点发送的训练数据的描述信息、初始模型的模型参数和所述管理节点划分的服务节点与服务节点维护的模型参数的对应关系;根据所述训练数据的描述信息获得训练数据,并根据所述训练数据和所述初始模型的模型参数进行模型训练,获得更新后的模型参数;根据所述对应关系向服务节点发送所述更新后的模型参数中由所述服务节点维护的模型参数。本发明可以大幅提升模型训练的效率,同时使得海量规模(如上万小时)的语音数据训练深层模型成为可能,使得训练得到的模型可以覆盖更广泛的变化,因此可以显著提升模型的精度和推广性。
-
公开(公告)号:CN105575389A
公开(公告)日:2016-05-11
申请号:CN201510888241.9
申请日:2015-12-07
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/063 , G10L15/14
Abstract: 本发明提出一种模型训练方法、系统和装置,该模型训练方法包括:接收管理节点发送的训练数据的描述信息、初始模型的模型参数和所述管理节点划分的服务节点与服务节点维护的模型参数的对应关系;根据所述训练数据的描述信息获得训练数据,并根据所述训练数据和所述初始模型的模型参数进行模型训练,获得更新后的模型参数;根据所述对应关系向服务节点发送所述更新后的模型参数中由所述服务节点维护的模型参数。本发明可以大幅提升模型训练的效率,同时使得海量规模(如上万小时)的语音数据训练深层模型成为可能,使得训练得到的模型可以覆盖更广泛的变化,因此可以显著提升模型的精度和推广性。
-
公开(公告)号:CN103680496A
公开(公告)日:2014-03-26
申请号:CN201310704701.9
申请日:2013-12-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种基于深层神经网络的声学模型训练方法、主机和系统。所述基于深层神经网络的声学模型方法包括:算主机从主控主机获取原始深层神经网络的副本深层神经网络;所述运算主机基于训练数据对副本深层神经网络进行训练,且按照设定规律进入停止状态;当所述运算主机处于停止状态时,将所述副本深层神经网络的加权参数的变化量提供给所述主控主机;所述运算主机接收所述主控主机发送的原始深层神经网络的加权参数绝对值,并根据加权参数绝对值更新副本深层神经网络的加权参数。本发明公开的声学模型训练方法、主机和系统利用多台主机异步、并行的进行深层神经网络训练,大幅提高了深层神经网络训练的效率。
-
公开(公告)号:CN103680496B
公开(公告)日:2016-08-10
申请号:CN201310704701.9
申请日:2013-12-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种基于深层神经网络的声学模型训练方法、主机和系统。所述基于深层神经网络的声学模型方法包括:算主机从主控主机获取原始深层神经网络的副本深层神经网络;所述运算主机基于训练数据对副本深层神经网络进行训练,且按照设定规律进入停止状态;当所述运算主机处于停止状态时,将所述副本深层神经网络的加权参数的变化量提供给所述主控主机;所述运算主机接收所述主控主机发送的原始深层神经网络的加权参数绝对值,并根据加权参数绝对值更新副本深层神经网络的加权参数。本发明公开的声学模型训练方法、主机和系统利用多台主机异步、并行的进行深层神经网络训练,大幅提高了深层神经网络训练的效率。
-
公开(公告)号:CN105551483A
公开(公告)日:2016-05-04
申请号:CN201510920809.0
申请日:2015-12-11
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/06
Abstract: 本发明提出一种语音识别的建模方法和装置,上述语音识别的建模方法包括:将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。本发明基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。
-
公开(公告)号:CN105513591A
公开(公告)日:2016-04-20
申请号:CN201510967532.7
申请日:2015-12-21
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种利用长短时记忆(LSTM)循环神经网络模型进行语音识别的方法和装置,其中方法包括:接收第t时刻的语音输入数据;根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态,其中,n为正整数;根据选择的至少一个LSTM隐含层状态、第t时刻的输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。该方法和装置可以很好地解决深度循环神经网络的“余尾效应”,提高了语音识别的准确性。
-
公开(公告)号:CN104468522A
公开(公告)日:2015-03-25
申请号:CN201410643064.3
申请日:2014-11-07
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: H04L63/0861 , G06F3/04883 , G06F3/04886 , G06F3/167 , G06F21/36 , H04L63/0838 , H04L63/083 , H04L9/3231
Abstract: 本发明公开了一种声纹验证方法和装置,所述方法包括:客户端生成并显示具有固定标识符的各键盘元素的随机标识符,以使用户通过输入至少一个键盘元素的随机标识符的声音信号来设定密码;客户端接收用户在设定密码时输入的第一声音信号,将第一声音信号传输给服务端。服务端接收客户端发送的用户在设定密码时输入的第一声音信号;服务端从第一声音信号中提取至少一个随机标识符,其中每个随机标识符分别对应一个具有固定标识符的键盘元素;服务端确定提取出的各随机标识符分别对应的键盘元素的固定标识符,并根据确定的固定标识符确定并保存用户设定的密码。通过上述方法,避免了现有技术中固定密码可见的问题,提高了安全性。
-
-
-
-
-
-
-
-
-