-
公开(公告)号:CN108550363B
公开(公告)日:2019-08-27
申请号:CN201810565148.8
申请日:2018-06-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/08 , G10L13/047
Abstract: 本发明提供一种语音合成方法及装置、计算机设备及可读介质。其方法包括:在语音拼接合成出现问题语音时,根据预先训练的时长预测模型和基频预测模型,预测问题语音对应的目标文本对应的每个音素的状态的时长以及每一帧的基频;根据目标文本对应的每个音素的状态的时长以及每一帧的基频,使用预先训练的语音合成模型,合成目标文本对应的语音;时长预测模型、基频预测模型和语音合成模型均基于语音拼接合成的音库训练得到。本发明的技术方案,避免补充录制语料重新建库,可以有效地缩短问题语音修复的时间,节省问题语音修复成本;可以保证合成后的语音的自然度和连续性得到改善,且与拼接合成的语音音质相比,不会发生改变,不会影响用户的听感。
-
公开(公告)号:CN108182936A
公开(公告)日:2018-06-19
申请号:CN201810209741.9
申请日:2018-03-14
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/02 , G10L13/02 , G10L15/063 , G10L19/04
Abstract: 本申请实施例公开了语音信号生成方法和装置。该方法的一具体实施方式包括:获取待转换为语音信号的合成文本;采用已训练的参数合成模型对合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,声学特征包括基频信息和频谱特征;将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出合成文本对应的语音信号;语音信号生成模型是基于参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从第一样本语音信号中提取出的基频信息训练得出的;参数合成模型是基于第二样本语音库训练得出的。该实施方式提升了合成语音的质量。
-
公开(公告)号:CN108182936B
公开(公告)日:2019-05-03
申请号:CN201810209741.9
申请日:2018-03-14
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了语音信号生成方法和装置。该方法的一具体实施方式包括:获取待转换为语音信号的合成文本;采用已训练的参数合成模型对合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,声学特征包括基频信息和频谱特征;将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出合成文本对应的语音信号;语音信号生成模型是基于参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从第一样本语音信号中提取出的基频信息训练得出的;参数合成模型是基于第二样本语音库训练得出的。该实施方式提升了合成语音的质量。
-
公开(公告)号:CN108806665A
公开(公告)日:2018-11-13
申请号:CN201811061208.9
申请日:2018-09-12
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 顾宇
Abstract: 本申请实施例公开了语音合成方法和装置。该系统的一具体实施方式包括:获取用于合成待转换成语音的目标文本对应的预测信息,预测信息包括:预测出的对应于目标文本的时长信息、预测出的对应于目标文本的频谱信息、预测出的对应于目标文本的基频信息;将获取到的目标文本对应的预测信息输入至预先训练的语音合成模型,得到与目标文本对应的合成语音。该实施方式提高了所合成的语音的精度。
-
公开(公告)号:CN108630190A
公开(公告)日:2018-10-09
申请号:CN201810478000.0
申请日:2018-05-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/04 , G10L13/047 , G10L25/30 , G06N3/08
Abstract: 本申请实施例公开了用于生成语音合成模型的方法和装置。该方法的一具体实施方式包括:获取训练样本集合,训练样本包括样本文本信息、与样本文本信息对应的样本音频数据和样本音频数据的基频;获取初始深度神经网络;利用机器学习方法,将训练样本集合中的训练样本的样本文本信息作为输入,将与输入的样本文本信息对应的样本音频数据和样本音频数据的基频作为输出,对初始深度神经网络进行训练,将训练后初始深度神经网络确定为语音合成模型。该实施方式实现了生成语音合成模型。由此生成的语音合成模型可以基于文本信息得到对应的音频数据,而不需要输入基频。
-
公开(公告)号:CN108630190B
公开(公告)日:2019-12-10
申请号:CN201810478000.0
申请日:2018-05-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/04 , G10L13/047 , G10L25/30 , G06N3/08
Abstract: 本申请实施例公开了用于生成语音合成模型的方法和装置。该方法的一具体实施方式包括:获取训练样本集合,训练样本包括样本文本信息、与样本文本信息对应的样本音频数据和样本音频数据的基频;获取初始深度神经网络;利用机器学习方法,将训练样本集合中的训练样本的样本文本信息作为输入,将与输入的样本文本信息对应的样本音频数据和样本音频数据的基频作为输出,对初始深度神经网络进行训练,将训练后初始深度神经网络确定为语音合成模型。该实施方式实现了生成语音合成模型。由此生成的语音合成模型可以基于文本信息得到对应的音频数据,而不需要输入基频。
-
公开(公告)号:CN108550363A
公开(公告)日:2018-09-18
申请号:CN201810565148.8
申请日:2018-06-04
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/08 , G10L13/047
Abstract: 本发明提供一种语音合成方法及装置、计算机设备及可读介质。其方法包括:在语音拼接合成出现问题语音时,根据预先训练的时长预测模型和基频预测模型,预测问题语音对应的目标文本对应的每个音素的状态的时长以及每一帧的基频;根据目标文本对应的每个音素的状态的时长以及每一帧的基频,使用预先训练的语音合成模型,合成目标文本对应的语音;时长预测模型、基频预测模型和语音合成模型均基于语音拼接合成的音库训练得到。本发明的技术方案,避免补充录制语料重新建库,可以有效地缩短问题语音修复的时间,节省问题语音修复成本;可以保证合成后的语音的自然度和连续性得到改善,且与拼接合成的语音音质相比,不会发生改变,不会影响用户的听感。
-
公开(公告)号:CN108877765A
公开(公告)日:2018-11-23
申请号:CN201810552365.3
申请日:2018-05-31
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供一种语音拼接合成的处理方法及装置、计算机设备及可读介质。其方法包括:根据预先训练的语音合成模型和获取到的合成文本,扩充音库;扩充前的音库中包括人工采集的原始语料;利用扩充后的音库进行语音拼接合成处理。本发明的技术方案,通过对音库进行扩充,使得音库中包括足够的语料,这样在根据扩充后的音库进行语音拼接处理时,可以选择的语音片段较多,从而可以提高语音合成的效果的连贯性和自然度,使得语音合成的效果非常连贯,自然度很好,能够满足用户的正常使用。
-
-
-
-
-
-
-