-
公开(公告)号:CN105845125A
公开(公告)日:2016-08-10
申请号:CN201610329738.1
申请日:2016-05-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/047
CPC classification number: G06F17/28 , G10L13/047 , G10L13/06
Abstract: 本发明公开了一种语音合成方法以及装置。其中方法包括:确定待合成语句文本信息所属的语种类型,其中,语种类型包括第一语种类型和第二语种类型;确定第一语种类型对应的第一基础模型,并确定第二语种类型对应的第二基础模型;确定目标音色,并根据目标音色分别对第一基础模型、第二基础模型进行自适应变换,并根据自适应变换后的第一基础模型、第二基础模型对待合成语句文本信息进行训练,以生成对应的谱参数和基频参数;根据目标音色对第一语种类型和第二语种类型的基频参数进行调整;依据第一语种类型的谱参数、第二语种类型的谱参数、调整后的第一语种类型的基频参数、第二语种类型的基频参数合成目标语音。
-
公开(公告)号:CN104934028A
公开(公告)日:2015-09-23
申请号:CN201510339032.9
申请日:2015-06-17
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种用于语音合成的深度神经网络模型的训练方法及装置,其中,该方法包括:从训练语料中提取上下文语境特征和音子边界特征;从训练语料提取声学特征参数;将上下文语境特征作为深度神经网络模型的输入特征,并将音子边界特征、声学参数特征和相邻时长特征作为深度神经网络模型的输出特征,对深度神经网络模型进行训练。本发明实施例的用于语音合成的深度神经网络模型的训练方法及装置,提供了一种语境特征、声学特征与音子边界特征同步建模的方式,增加了声学特征与语境特征对时长的同步约束,所建立的模型符合人的发音特性,模型准确度较高。
-
公开(公告)号:CN104916284A
公开(公告)日:2015-09-16
申请号:CN201510315459.5
申请日:2015-06-10
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种用于语音合成系统的韵律与声学联合建模的方法及装置,其中,该方法包括:根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型;根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合;以及根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型。本发明实施例的用于语音合成系统的韵律与声学联合建模的方法及装置,提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式,通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然,进而可使合成语音更加流畅自然。
-
公开(公告)号:CN104538024A
公开(公告)日:2015-04-22
申请号:CN201410720550.0
申请日:2014-12-01
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供了语音合成方法、装置和设备。该方法包括:获取待处理文本的语境信息;根据所述语境信息利用时长预测模型确定语音时长,其中所述时长预测模型是基于深度神经网络训练得到;根据所述语境信息及所述语音时长,利用谱和基频预测模型确定谱和基频特征参数;根据所述谱和基频特征参数得到合成语音。本发明提供的语音合成方法能够提供高音质、自然流畅的语音。
-
公开(公告)号:CN105654940B
公开(公告)日:2019-12-24
申请号:CN201610051963.3
申请日:2016-01-26
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供了一种语音合成方法和装置,其中方法包括:利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。本发明能够提高最终合成的语音的自然度和表现力。
-
公开(公告)号:CN108182936B
公开(公告)日:2019-05-03
申请号:CN201810209741.9
申请日:2018-03-14
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了语音信号生成方法和装置。该方法的一具体实施方式包括:获取待转换为语音信号的合成文本;采用已训练的参数合成模型对合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,声学特征包括基频信息和频谱特征;将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出合成文本对应的语音信号;语音信号生成模型是基于参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从第一样本语音信号中提取出的基频信息训练得出的;参数合成模型是基于第二样本语音库训练得出的。该实施方式提升了合成语音的质量。
-
公开(公告)号:CN108630190A
公开(公告)日:2018-10-09
申请号:CN201810478000.0
申请日:2018-05-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/04 , G10L13/047 , G10L25/30 , G06N3/08
Abstract: 本申请实施例公开了用于生成语音合成模型的方法和装置。该方法的一具体实施方式包括:获取训练样本集合,训练样本包括样本文本信息、与样本文本信息对应的样本音频数据和样本音频数据的基频;获取初始深度神经网络;利用机器学习方法,将训练样本集合中的训练样本的样本文本信息作为输入,将与输入的样本文本信息对应的样本音频数据和样本音频数据的基频作为输出,对初始深度神经网络进行训练,将训练后初始深度神经网络确定为语音合成模型。该实施方式实现了生成语音合成模型。由此生成的语音合成模型可以基于文本信息得到对应的音频数据,而不需要输入基频。
-
公开(公告)号:CN105590623A
公开(公告)日:2016-05-18
申请号:CN201610102345.7
申请日:2016-02-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/08 , G10L15/187 , G10L25/30
CPC classification number: G10L15/063 , G06F17/2217 , G06N3/04 , G06N3/0445 , G06N3/0454 , G06N3/08 , G10L13/00 , G10L15/02 , G10L15/16 , G10L2015/025 , G10L13/08 , G10L15/187 , G10L25/30
Abstract: 本申请提出一种基于人工智能的字母音素转换模型生成方法及装置,其中,该方法包括:在应用神经网络对训练数据中的每个单词进行字母音素转换的每次训练过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;最终对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。通过本申请提供的基于人工智能的字母音素转换模型生成方法和装置,提高了字母音素转换模型的学习能力和泛化能力,从而避免了过拟合现象。
-
公开(公告)号:CN105551481A
公开(公告)日:2016-05-04
申请号:CN201510967511.5
申请日:2015-12-21
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 康永国
IPC: G10L13/10
CPC classification number: G10L13/10
Abstract: 本发明提出一种语音数据的韵律标注方法及装置,其中,该方法包括:获取待标注语音数据的文本信息,提取第一文本特征信息和第二文本特征信息;提取声学特征信息;根据第一文本特征信息和韵律预测模型生成N个候选韵律特征信息;基于N个候选韵律特征信息、第二文本特征信息和声学预测模型生成N个候选声学特征信息;分别计算每个候选声学特征信息与声学特征信息之间的相关值;将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息;根据目标韵律特征信息对待标注语音数据的韵律特征进行标注。该实施例的方法及装置,准确对标注语音数据的韵律停顿进行了标注,进而可使合成语音更加流畅自然。
-
公开(公告)号:CN105374350A
公开(公告)日:2016-03-02
申请号:CN201510633281.9
申请日:2015-09-29
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/02
CPC classification number: G10L13/02
Abstract: 本发明实施例公开了一种语音标注方法及装置,其中所述方法包括:采用第一声学模型对输入语料的特征信息进行对齐,得到第一音段标注结果,所述特征信息包括语音特征和文本特征,所述第一音段标注结果中包含语音特征和文本特征的初始对应关系;采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练,得到第二音段标注结果,所述第二音段标注结果中包含语音特征和文本特征的最终对应关系;将所述第二音段标注结果做为语音合成时采用的音段标注结果。本发明实施例能够准确的对输入语料进行音段标注。
-
-
-
-
-
-
-
-
-