-
公开(公告)号:CN105118498A
公开(公告)日:2015-12-02
申请号:CN201510559930.5
申请日:2015-09-06
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/02 , G10L13/033
Abstract: 本发明实施例公开了一种语音合成模型的训练方法及装置。所述方法包括:初始化将用于语音合成的深层神经网络模型;利用从至少一个发音人的大规模语料数据中提取的文本特征及声学特征,训练经过初始化的深层神经网络模型,以得到初步的深层神经网络模型;利用从目标发音人的小规模语料数据中提取的文本特征及声学特征,训练所述初步的深层神经网络模型,以得到最终应用于语音合成的深层神经网络模型。本发明实施例提供的语音合成模型的训练方法及装置提高了使用少量样本语料数据的语音合成系统的合成语音质量。
-
公开(公告)号:CN109559734B
公开(公告)日:2022-02-18
申请号:CN201811552516.1
申请日:2018-12-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/08 , G10L13/10 , G10L13/047 , G10L25/03
Abstract: 本发明实施例提出一种声学模型训练的加速方法和装置。该方法包括:将声学模型训练过程按照步骤划分为多个任务;获取计算节点集群中各节点的资源占用情况;根据各节点的资源占用情况和任务复杂度,向各节点分发对应的任务。本发明实施例可以利用分布在多个节点的计算资源对声学模型训练任务进行分布式并行计算,提高训练效率,适用于大规模声学模型训练的复杂情况。
-
公开(公告)号:CN109389969B
公开(公告)日:2020-05-26
申请号:CN201811269819.2
申请日:2018-10-29
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供一种语料库优化方法及装置,对于第一音频中的瑕疵音,从语料库中确定出该瑕疵音对应的第一声音片段,然后将语料库中的第一声音片段标记为非法声音片段,后续合成音频的过程中,仅从语料库中合法声音片段中选择候选声音片段,进而从候选声音片段中选择出最优声音片段,对最优声音片段进行波形拼接得到合成音频。该过程中,通过对语料库中的声音片段进行标记实现对语料库的优化,无需修改代码,优化过程简单且成本低。
-
公开(公告)号:CN109346109B
公开(公告)日:2020-02-07
申请号:CN201811482074.8
申请日:2018-12-05
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了基频提取方法和装置。该方法的一具体实施方式包括:基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点;对语音帧进行清浊音分类,得到各语音帧对应的清浊音类别;基于各语音帧对应的清浊音类别以及预设的基频筛选条件对候选基频点进行修正,并采用动态规划算法从修正后的候选基频点中确定出待处理语音信号的基频序列。该实施方式提升了基频提取的准确性。
-
公开(公告)号:CN110677802A
公开(公告)日:2020-01-10
申请号:CN201810720462.9
申请日:2018-07-03
Applicant: 百度在线网络技术(北京)有限公司
IPC: H04S7/00
Abstract: 本申请实施例公开了用于处理音频的方法和装置。上述方法的一具体实施方式包括:获取目标位置的信息;基于目标位置的信息,确定目标头相关传递函数;利用目标头相关传递函数对预设音频进行处理,得到目标音频。该实施方式使得处理后得到的目标音频包括目标位置的方位信息,提高了用户的收听效果。
-
公开(公告)号:CN105654940B
公开(公告)日:2019-12-24
申请号:CN201610051963.3
申请日:2016-01-26
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供了一种语音合成方法和装置,其中方法包括:利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。本发明能够提高最终合成的语音的自然度和表现力。
-
公开(公告)号:CN109559734A
公开(公告)日:2019-04-02
申请号:CN201811552516.1
申请日:2018-12-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/08 , G10L13/10 , G10L13/047 , G10L25/03
Abstract: 本发明实施例提出一种声学模型训练的加速方法和装置。该方法包括:将声学模型训练过程按照步骤划分为多个任务;获取计算节点集群中各节点的资源占用情况;根据各节点的资源占用情况和任务复杂度,向各节点分发对应的任务。本发明实施例可以利用分布在多个节点的计算资源对声学模型训练任务进行分布式并行计算,提高训练效率,适用于大规模声学模型训练的复杂情况。
-
公开(公告)号:CN105206264B
公开(公告)日:2017-06-27
申请号:CN201510609521.1
申请日:2015-09-22
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L15/183
Abstract: 本发明提出一种语音合成方法和装置,该语音合成方法包括:在预先建立的模型中,获取备选单元的初始模型参数,并根据初始模型参数确定最优单元序列,并计算所述最优单元序列的代价值;如果所述最优单元序列的代价值不满足预设条件,则在所述模型中,获取备选单元的更新后的模型参数,所述更新后的模型参数包括:比初始模型参数韵律层级低的一个或多个低级分量的模型参数,并根据所述更新后的模型参数重新确定最优单元序列;将代价值满足预设条件的最优单元序列中的语音单元,确定为要拼接的语音单元,以便对所述要拼接的语音单元进行拼接,得到合成语音。该方法能够提高选择的语音单元的准确性,从而使得合成语音更加自然和具有更优良的表现力。
-
公开(公告)号:CN105374350A
公开(公告)日:2016-03-02
申请号:CN201510633281.9
申请日:2015-09-29
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/02
CPC classification number: G10L13/02
Abstract: 本发明实施例公开了一种语音标注方法及装置,其中所述方法包括:采用第一声学模型对输入语料的特征信息进行对齐,得到第一音段标注结果,所述特征信息包括语音特征和文本特征,所述第一音段标注结果中包含语音特征和文本特征的初始对应关系;采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练,得到第二音段标注结果,所述第二音段标注结果中包含语音特征和文本特征的最终对应关系;将所述第二音段标注结果做为语音合成时采用的音段标注结果。本发明实施例能够准确的对输入语料进行音段标注。
-
-
-
-
-
-
-
-