-
公开(公告)号:CN105206264A
公开(公告)日:2015-12-30
申请号:CN201510609521.1
申请日:2015-09-22
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/183
Abstract: 本发明提出一种语音合成方法和装置,该语音合成方法包括:在预先建立的模型中,获取备选单元的初始模型参数,并根据初始模型参数确定最优单元序列,并计算所述最优单元序列的代价值;如果所述最优单元序列的代价值不满足预设条件,则在所述模型中,获取备选单元的更新后的模型参数,所述更新后的模型参数包括:比初始模型参数韵律层级低的一个或多个低级分量的模型参数,并根据所述更新后的模型参数重新确定最优单元序列;将代价值满足预设条件的最优单元序列中的语音单元,确定为要拼接的语音单元,以便对所述要拼接的语音单元进行拼接,得到合成语音。该方法能够提高选择的语音单元的准确性,从而使得合成语音更加自然和具有更优良的表现力。
-
公开(公告)号:CN104934028A
公开(公告)日:2015-09-23
申请号:CN201510339032.9
申请日:2015-06-17
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种用于语音合成的深度神经网络模型的训练方法及装置,其中,该方法包括:从训练语料中提取上下文语境特征和音子边界特征;从训练语料提取声学特征参数;将上下文语境特征作为深度神经网络模型的输入特征,并将音子边界特征、声学参数特征和相邻时长特征作为深度神经网络模型的输出特征,对深度神经网络模型进行训练。本发明实施例的用于语音合成的深度神经网络模型的训练方法及装置,提供了一种语境特征、声学特征与音子边界特征同步建模的方式,增加了声学特征与语境特征对时长的同步约束,所建立的模型符合人的发音特性,模型准确度较高。
-
公开(公告)号:CN104538024A
公开(公告)日:2015-04-22
申请号:CN201410720550.0
申请日:2014-12-01
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供了语音合成方法、装置和设备。该方法包括:获取待处理文本的语境信息;根据所述语境信息利用时长预测模型确定语音时长,其中所述时长预测模型是基于深度神经网络训练得到;根据所述语境信息及所述语音时长,利用谱和基频预测模型确定谱和基频特征参数;根据所述谱和基频特征参数得到合成语音。本发明提供的语音合成方法能够提供高音质、自然流畅的语音。
-
公开(公告)号:CN110930975B
公开(公告)日:2023-08-04
申请号:CN201811597465.4
申请日:2018-12-26
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:获取待标注的样本音节对应的基频曲线;从基频曲线中提取出基频序列;将基频序列转换成样本值序列;将样本值序列与已知边界调类型的基准序列进行聚类,得到样本值序列的边界调类型作为待标注的样本音节的边界调类型,以及输出待标注的样本音节的边界调类型。该实施方式实现了在英文语音合成系统中的边界调的自动标注,从而缩短了标注时间并节约了成本。
-
公开(公告)号:CN110930975A
公开(公告)日:2020-03-27
申请号:CN201811597465.4
申请日:2018-12-26
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:获取待标注的样本音节对应的基频曲线;从基频曲线中提取出基频序列;将基频序列转换成样本值序列;将样本值序列与已知边界调类型的基准序列进行聚类,得到样本值序列的边界调类型作为待标注的样本音节的边界调类型,以及输出待标注的样本音节的边界调类型。该实施方式实现了在英文语音合成系统中的边界调的自动标注,从而缩短了标注时间并节约了成本。
-
公开(公告)号:CN109979422A
公开(公告)日:2019-07-05
申请号:CN201910130728.9
申请日:2019-02-21
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供一种基频处理方法、装置、设备及计算机可读存储介质,方法包括:接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;根据预设的提取规则从所述待处理文件中提取待训练数据;通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。从而后续能够根据该基频建立模型实现对基频的建立,由于该基频建立模型通过待处理文件中提取出的待训练数据进行训练,从而根据该基频建立模型得到的基频能够模拟真实歌声中的多种技巧种类,基频表现力较高。
-
公开(公告)号:CN109389969A
公开(公告)日:2019-02-26
申请号:CN201811269819.2
申请日:2018-10-29
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供一种语料库优化方法及装置,对于第一音频中的瑕疵音,从语料库中确定出该瑕疵音对应的第一声音片段,然后将语料库中的第一声音片段标记为非法声音片段,后续合成音频的过程中,仅从语料库中合法声音片段中选择候选声音片段,进而从候选声音片段中选择出最优声音片段,对最优声音片段进行波形拼接得到合成音频。该过程中,通过对语料库中的声音片段进行标记实现对语料库的优化,无需修改代码,优化过程简单且成本低。
-
公开(公告)号:CN105118498B
公开(公告)日:2018-07-31
申请号:CN201510559930.5
申请日:2015-09-06
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/02 , G10L13/033
Abstract: 本发明实施例公开了种语音合成模型的训练方法及装置。所述方法包括:初始化将用于语音合成的深层神经网络模型;利用从至少个发音人的大规模语料数据中提取的文本特征及声学特征,训练经过初始化的深层神经网络模型,以得到初步的深层神经网络模型;利用从目标发音人的小规模语料数据中提取的文本特征及声学特征,训练所述初步的深层神经网络模型,以得到最终应用于语音合成的深层神经网络模型。本发明实施例提供的语音合成模型的训练方法及装置提高了使用少量样本语料数据的语音合成系统的合成语音质量。
-
公开(公告)号:CN104934028B
公开(公告)日:2017-11-17
申请号:CN201510339032.9
申请日:2015-06-17
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种用于语音合成的深度神经网络模型的训练方法及装置,其中,该方法包括:从训练语料中提取上下文语境特征和音子边界特征;从训练语料提取声学特征参数;将上下文语境特征作为深度神经网络模型的输入特征,并将音子边界特征、声学参数特征和相邻时长特征作为深度神经网络模型的输出特征,对深度神经网络模型进行训练。本发明实施例的用于语音合成的深度神经网络模型的训练方法及装置,提供了一种语境特征、声学特征与音子边界特征同步建模的方式,增加了声学特征与语境特征对时长的同步约束,所建立的模型符合人的发音特性,模型准确度较高。
-
公开(公告)号:CN105374350B
公开(公告)日:2017-05-17
申请号:CN201510633281.9
申请日:2015-09-29
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/02
Abstract: 本发明实施例公开了一种语音标注方法及装置,其中所述方法包括:采用第一声学模型对输入语料的特征信息进行对齐,得到第一音段标注结果,所述特征信息包括语音特征和文本特征,所述第一音段标注结果中包含语音特征和文本特征的初始对应关系;采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练,得到第二音段标注结果,所述第二音段标注结果中包含语音特征和文本特征的最终对应关系;将所述第二音段标注结果做为语音合成时采用的音段标注结果。本发明实施例能够准确的对输入语料进行音段标注。
-
-
-
-
-
-
-
-
-