-
公开(公告)号:CN105185373B
公开(公告)日:2017-04-05
申请号:CN201510477652.9
申请日:2015-08-06
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/10
Abstract: 本发明提出一种韵律层级预测模型的生成及韵律层级预测方法和装置,该韵律层级预测模型的生成方法包括:根据精标数据集生成初始的韵律层级预测模型;收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置;根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。该方法能够提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。
-
公开(公告)号:CN105244020B
公开(公告)日:2017-03-22
申请号:CN201510616919.8
申请日:2015-09-24
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种用于语音合成的韵律层级模型训练方法、使用该韵律层级模型进行语音合成的方法及装置,其中该训练方法包括:对海量无标注语料数据进行训练获得单字的字向量;根据字向量以及韵律标注数据获取训练数据对应的文本特征及标注;以及基于深度神经网络和双向LSTM神经网络,根据训练数据的文本特征、标注对韵律层级模型进行训练。该方法基于字粒度的字典较传统使用的词粒度的词典相比,有效地减小了条目规模,同时减小了模型及资源文件对于计算资源和存储空间的要求,在提高韵律预测模型性能的同时,保证了在嵌入式智能设备中的可用性。
-
公开(公告)号:CN105244020A
公开(公告)日:2016-01-13
申请号:CN201510616919.8
申请日:2015-09-24
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种用于语音合成的韵律层级模型训练方法、使用该韵律层级模型进行语音合成的方法及装置,其中该训练方法包括:对海量无标注语料数据进行训练获得单字的字向量;根据字向量以及韵律标注数据获取训练数据对应的文本特征及标注;以及基于深度神经网络和双向LSTM神经网络,根据训练数据的文本特征、标注对韵律层级模型进行训练。该方法基于字粒度的字典较传统使用的词粒度的词典相比,有效地减小了条目规模,同时减小了模型及资源文件对于计算资源和存储空间的要求,在提高韵律预测模型性能的同时,保证了在嵌入式智能设备中的可用性。
-
公开(公告)号:CN107729313B
公开(公告)日:2021-09-17
申请号:CN201710876713.8
申请日:2017-09-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/279 , G06N3/08
Abstract: 本申请提出一种基于深度神经网络的多音字读音的判别方法和装置,其中,上述基于深度神经网络的多音字读音的判别方法包括:对待识别文本中的每个汉字进行量化编码,生成所述汉字的特征向量;根据汉字的特征向量,结合所述汉字的双方向的上下文信息,生成汉字的输入特征;将所述汉字的输入特征分别输入声母、韵母和声调对应的DNN模型,分别获得第一概率、第二概率和第三概率;根据第一概率、第二概率和第三概率计算声母、韵母和声调的各种组合的概率,以概率最高的组合作为所述汉字的读音。本申请可以提高读音判别的准确性,有效缓解多音字高频音引起的训练样本不均衡的问题,并且可以解决多个多音字的读音判别问题,有利于语音合成系统的集成。
-
公开(公告)号:CN104867491A
公开(公告)日:2015-08-26
申请号:CN201510337430.7
申请日:2015-06-17
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/10
Abstract: 本发明公开了一种用于语音合成的韵律模型训练方法和装置,其中,用于语音合成的韵律模型训练方法,包括:S1、从训练语料文本中提取分词对应的文本特征和标记特征;S2、基于同义词词林对训练语料文本中的分词进行泛化;以及S3、根据文本特征、标记特征以及泛化后的分词,对韵律模型进行训练。本发明实施例的用于语音合成的韵律模型训练方法和装置,通过从训练语料文本中提取分词对应的文本特征和标记特征,基于同义词词林对训练语料文本中的多个分词进行泛化,然后根据文本特征、标记特征以及泛化后的分词,对韵律模型进行训练,使得韵律模型更加完善,进而提升韵律预测的准确性。
-
公开(公告)号:CN105185374A
公开(公告)日:2015-12-23
申请号:CN201510580636.2
申请日:2015-09-11
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/22 , G10L15/187
Abstract: 本发明公开了一种韵律层级标注方法和装置,其中,韵律层级标注方法包括以下步骤:S1、获取文本序列;S2、将文本序列切分为多个分词,并提取分词的特征;S3、将特征作为输入,并基于双向长短时记忆模型获得对应的输出结果;以及S4、根据输出结果对文本序列的韵律层级进行标注。本发明实施例的韵律层级标注方法和装置,基于双向长短时记忆模型对韵律层级进行标注,有效地解决了文本序列中分词的上下文特征扩展范围有限的问题,并且一次性对韵律层级进行标注,避免了标注时错误传递的问题。
-
公开(公告)号:CN105185373A
公开(公告)日:2015-12-23
申请号:CN201510477652.9
申请日:2015-08-06
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/10
Abstract: 本发明提出一种韵律层级预测模型的生成及韵律层级预测方法和装置,该韵律层级预测模型的生成方法包括:根据精标数据集生成初始的韵律层级预测模型;收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置;根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。该方法能够提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。
-
公开(公告)号:CN107437413B
公开(公告)日:2020-09-25
申请号:CN201710541569.2
申请日:2017-07-05
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/10
Abstract: 本发明提出一种语音播报方法及装置,其中,方法包括:获取待播报对象;识别待播报对象的目标对象类型;根据目标对象类型获取与待播报对象匹配的播报标签集合;其中,播报标签集合用于表征出待播报对象的播报规则;根据播报标签集合所表征的播报规则播报待播报对象。该方法能够在播报时将待播报内容所携带的情感展现给听众,使听众能够在听觉上感受到该内容所携带的情感,且按照播报标签来播报对象是对语音合成标记语言(speech Synthesis Markup Language,简称SSML)规范的一种实现手段,有利于人们通过各种终端设备来聆听语音。
-
公开(公告)号:CN109616100A
公开(公告)日:2019-04-12
申请号:CN201910005075.1
申请日:2019-01-03
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明公开了一种语音识别模型的生成方法及其装置。其中,方法包括:获取多种环境下的噪声信号,以及无噪声的样本语音信号。根据多种环境下的噪声信号和无噪声的样本语音信号,生成多种带噪声的样本语音信号。使用样本语音信号,对深度神经网络进行训练,以生成语音识别模型。其中,样本语音信号包括多种带噪声的样本语音信号和无噪声的样本语音信号。由此,实现了使用不同的样本语音信号对深度神经网络进行训练,以生成能够应对不同环境噪声的语音识别模型,增强了语音识别模型的鲁棒性。解决了现有技术中不能对不同环境下的噪声进行处理的技术问题。
-
公开(公告)号:CN107437413A
公开(公告)日:2017-12-05
申请号:CN201710541569.2
申请日:2017-07-05
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/10
Abstract: 本发明提出一种语音播报方法及装置,其中,方法包括:获取待播报对象;识别待播报对象的目标对象类型;根据目标对象类型获取与待播报对象匹配的播报标签集合;其中,播报标签集合用于表征出待播报对象的播报规则;根据播报标签集合所表征的播报规则播报待播报对象。该方法能够在播报时将待播报内容所携带的情感展现给听众,使听众能够在听觉上感受到该内容所携带的情感,且按照播报标签来播报对象是对语音合成标记语言(speech Synthesis Markup Language,简称SSML)规范的一种实现手段,有利于人们通过各种终端设备来聆听语音。
-
-
-
-
-
-
-
-
-