-
公开(公告)号:CN112151003B
公开(公告)日:2025-01-28
申请号:CN201910569448.8
申请日:2019-06-27
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种并行语音合成方法、装置、设备以及计算机可读存储介质。方法包括将一段文本拆分成多个片段,然后根据这段文本获得多个片段的用于循环神经网络的多个初始隐状态。方法还包括基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。本公开的实施例在使用循环神经网络并行合成多个片段的过程中,通过隐状态预测模型为每个片段提供初始隐状态,不仅能够提升语音合成的速度,实现实时的语音合成,而且能够缓解片段之间的隐状态中断,由此保证合成语音的质量。
-
公开(公告)号:CN110619867B
公开(公告)日:2020-11-03
申请号:CN201910927040.3
申请日:2019-09-27
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了语音合成模型的训练方法、装置、电子设备及存储介质,涉及计算机智能语音领域。具体实现方案为:将当前样本的音节输入序列、音素输入序列和汉字输入序列作为待训练模型的编码器的输入,在编码器的输出端得到各个序列的编码表示;将编码表示的三个序列进行融合,得到三个序列的一个加权组合;将该加权组合作为注意力模块的输入,在注意力模块的输出端得到音节输入序列、音素输入序列和汉字输入序列的加权组合在各个时刻上的加权平均;将该加权平均作为待训练模型的解码器的输入,在解码器的输出端得到当前样本的语音Mel谱输出。本申请实施例可以有效地改善发音效果,为语音产品提供高表现力和高自然度的中文合成语音。
-
公开(公告)号:CN111354370A
公开(公告)日:2020-06-30
申请号:CN202010091799.5
申请日:2020-02-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种唇形特征预测方法、装置和电子设备,涉及虚拟技术领域。具体实现方案为:识别语音特征的PPG;使用神经网络模型对所述PPG进行预测,以预测到语音特征的唇形特征,其中,所述神经网络模型为使用训练样本进行训练得到输入包括PPG,输出包括唇形特征的神经网络模型,所述训练样本包括PPG训练样本和唇形特征训练样本。本申请可以提高预测唇形特征的准确性。
-
公开(公告)号:CN103915092B
公开(公告)日:2019-01-25
申请号:CN201410129541.4
申请日:2014-04-01
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种语音识别方法和装置,该语音识别方法包括采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。该方法能够不依赖网络实现语音识别。
-
公开(公告)号:CN105187656B
公开(公告)日:2018-09-07
申请号:CN201510613491.1
申请日:2015-09-23
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种通讯录联系人匹配方法和装置,其中,通讯录联系人匹配方法包括:获取用户发送的语音信息,并将语音信息识别为文本信息;将文本信息转换为第一音子序列,并根据第一音子序列生成第一状态序列;获取通讯录中的多个联系人信息;分别将多个联系人信息转换为对应的第二音子序列,并根据第二音子序列生成第二状态序列;计算第一状态序列与多个第二状态序列的相似度,并根据相似度对多个第二状态序列进行排序,以及将排名前N名的第二状态序列对应的联系人信息反馈给用户。本发明实施例的通讯录联系人匹配方法和装置,提高了用户语音搜索联系人姓名的准确率。
-
公开(公告)号:CN104392716B
公开(公告)日:2017-10-13
申请号:CN201410645715.2
申请日:2014-11-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/027 , G10L13/08
Abstract: 本发明实施例公开了一种高表现力的语音合成方法和装置。所述高表现力的语音合成方法包括:将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型;根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音,包括利用声码器将声学参数来合成语音或者用声学参数指导声学片段的单元挑选来生成语音。本发明实施例提供的高表现力的语音合成方法和装置提高了合成语音的自然度。
-
公开(公告)号:CN105118502B
公开(公告)日:2017-05-10
申请号:CN201510413643.3
申请日:2015-07-14
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/04 , G10L15/02 , G10L15/16 , G10L21/0208
Abstract: 本发明提出一种语音识别系统的端点检测方法及系统,其中,该方法包括:基于长短时记忆神经网络训练声学识别模型;通过预设语音端点检测算法初步识别出待识别语音信号的语音端点;分帧提取待识别语音信号的语音特征信息,并将语音特征信息输入声学识别模型,以使声学识别模型根据语音特征信息生成待识别语音信号的声学识别结果;以及根据声学识别结果对初步识别出的语音端点进行调整。本发明实施例的语音识别系统的端点检测方法,提供了一种通过声学识别结果对初步识别出的语音端点进行调整的端点检测方式,准确定位了待识别语音信号的语音端点,提高了语音端点检测的准确率,进而可提高语音识别的准确性,提高语音识别系统的性能。
-
公开(公告)号:CN105161095B
公开(公告)日:2017-03-22
申请号:CN201510455696.1
申请日:2015-07-29
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种语音识别语法树的构图方法及装置,其中所述方法包括:确定与应用场景对应的槽,且为每个槽赋予对应的至少一个字词;根据预定语法路径中的槽顺序和槽对应的字词,形成语法语句,并解析语法语句中字词的语音,确定对应的声学模型;根据所述应用场景的预定语法路径中的槽构建语法树,其中,槽与语法树中的节点对应,且节点中存储该槽的槽索引,所述槽索引用于索引对应字词的声学模型存储位置。本发明实施例只需要确定与应用场景对应的槽,为每个槽赋予对应的至少一个字词槽中,通过构建与槽对应的语法树,在节点中存储该槽的槽索引,从而完成构图过程,能够大大节约内存空间和构图消耗时间。
-
公开(公告)号:CN103294666B
公开(公告)日:2017-03-01
申请号:CN201310203987.2
申请日:2013-05-28
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06F17/274 , G06F8/42 , G06F8/427 , G06F17/271 , G06F17/2785
Abstract: 本发明提供了一种语法编译方法、语义解析方法以及对应装置,按照语义的常用语句表达采用基于逻辑语法直观语言(LGML)预先定义对应的语法描述文件和词类描述文件,在语法描述文件中由词类、操作符和函数构成常用语句的描述,词类描述文件用于描述词类的具体取值;将语法描述文件和词类描述文件分别按照预设顺序的归约方法生成语法描述文件的语法树和词类描述文件的词类树,将词类树挂接在语法树中对应词类的位置,形成语义的语法树,从而实现语法编译。基于该方式建立的语义的语法树,采用整句匹配、语义映射匹配或者整句匹配和语义映射匹配相结合的方式进行语义解析。
-
公开(公告)号:CN103680496B
公开(公告)日:2016-08-10
申请号:CN201310704701.9
申请日:2013-12-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种基于深层神经网络的声学模型训练方法、主机和系统。所述基于深层神经网络的声学模型方法包括:算主机从主控主机获取原始深层神经网络的副本深层神经网络;所述运算主机基于训练数据对副本深层神经网络进行训练,且按照设定规律进入停止状态;当所述运算主机处于停止状态时,将所述副本深层神经网络的加权参数的变化量提供给所述主控主机;所述运算主机接收所述主控主机发送的原始深层神经网络的加权参数绝对值,并根据加权参数绝对值更新副本深层神经网络的加权参数。本发明公开的声学模型训练方法、主机和系统利用多台主机异步、并行的进行深层神经网络训练,大幅提高了深层神经网络训练的效率。
-
-
-
-
-
-
-
-
-