-
公开(公告)号:CN110473516A
公开(公告)日:2019-11-19
申请号:CN201910888456.9
申请日:2019-09-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种语音合成方法、装置以及电子设备,涉及语音合成领域。具体实现方案为:将文本信息输入至声学模型的编码器中,输出当前时间步的文本特征;将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征,输入至声学模型的译码器中,得到当前时间步的谱特征;将当前时间步的谱特征输入至神经网络声码器中,输出语音。将自回归的声学模型和神经网络声码器结合,使得在节省硬件资源,加快语音合成速度的同时,提高合成语音的自然度和音质。
-
公开(公告)号:CN112151003B
公开(公告)日:2025-01-28
申请号:CN201910569448.8
申请日:2019-06-27
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种并行语音合成方法、装置、设备以及计算机可读存储介质。方法包括将一段文本拆分成多个片段,然后根据这段文本获得多个片段的用于循环神经网络的多个初始隐状态。方法还包括基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。本公开的实施例在使用循环神经网络并行合成多个片段的过程中,通过隐状态预测模型为每个片段提供初始隐状态,不仅能够提升语音合成的速度,实现实时的语音合成,而且能够缓解片段之间的隐状态中断,由此保证合成语音的质量。
-
公开(公告)号:CN111354370A
公开(公告)日:2020-06-30
申请号:CN202010091799.5
申请日:2020-02-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种唇形特征预测方法、装置和电子设备,涉及虚拟技术领域。具体实现方案为:识别语音特征的PPG;使用神经网络模型对所述PPG进行预测,以预测到语音特征的唇形特征,其中,所述神经网络模型为使用训练样本进行训练得到输入包括PPG,输出包括唇形特征的神经网络模型,所述训练样本包括PPG训练样本和唇形特征训练样本。本申请可以提高预测唇形特征的准确性。
-
公开(公告)号:CN111354370B
公开(公告)日:2021-06-25
申请号:CN202010091799.5
申请日:2020-02-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种唇形特征预测方法、装置和电子设备,涉及虚拟技术领域。具体实现方案为:识别语音特征的PPG;使用神经网络模型对所述PPG进行预测,以预测到语音特征的唇形特征,其中,所述神经网络模型为使用训练样本进行训练得到输入包括PPG,输出包括唇形特征的神经网络模型,所述训练样本包括PPG训练样本和唇形特征训练样本。本申请可以提高预测唇形特征的准确性。
-
公开(公告)号:CN112151003A
公开(公告)日:2020-12-29
申请号:CN201910569448.8
申请日:2019-06-27
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种并行语音合成方法、装置、设备以及计算机可读存储介质。方法包括将一段文本拆分成多个片段,然后根据这段文本获得多个片段的用于循环神经网络的多个初始隐状态。方法还包括基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。本公开的实施例在使用循环神经网络并行合成多个片段的过程中,通过隐状态预测模型为每个片段提供初始隐状态,不仅能够提升语音合成的速度,实现实时的语音合成,而且能够缓解片段之间的隐状态中断,由此保证合成语音的质量。
-
公开(公告)号:CN110473516B
公开(公告)日:2020-11-27
申请号:CN201910888456.9
申请日:2019-09-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种语音合成方法、装置以及电子设备,涉及语音合成领域。具体实现方案为:将文本信息输入至声学模型的编码器中,输出当前时间步的文本特征;将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征,输入至声学模型的译码器中,得到当前时间步的谱特征;将当前时间步的谱特征输入至神经网络声码器中,输出语音。将自回归的声学模型和神经网络声码器结合,使得在节省硬件资源,加快语音合成速度的同时,提高合成语音的自然度和音质。
-
-
-
-
-