-
公开(公告)号:CN105355193B
公开(公告)日:2020-09-25
申请号:CN201510728762.8
申请日:2015-10-30
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种语音合成方法和装置,该语音合成方法包括:获取以段落或篇章为单位的文本数据;在发音人朗读所述文本数据时进行录制,得到所述文本数据对应的语音数据,其中,发音人在朗读时结合文本数据的语义进行个人情感表达;生成韵律模型,以及,根据所述文本数据和所述语音数据生成声学模型;在需要进行语音合成时,根据预先生成的韵律模型和声学模型对输入文本进行处理,得到所述输入文本对应的合成语音。该方法能够提高合成语音的情感表现力。
-
公开(公告)号:CN106601228B
公开(公告)日:2020-02-04
申请号:CN201611135605.7
申请日:2016-12-09
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/10
Abstract: 本发明提出一种基于人工智能韵律预测的样本标注方法及装置,其中,方法包括:获取与第一样本音频文件对应的未标注韵律的第一文本序列;获取第一文本序列中每个字的文本特征和发音时长;应用预先训练的韵律标注模型对第一文本序列中每个字的文本特征和发音时长,获取第一文本序列中每个字的输出标记;根据第一文本序列中每个字的输出标记对第一文本序列进行韵律层级标注。由此,降低了文本的标注成本,提高了文本的标注效率和准确性,并能够提供更多的韵律层级标注所需的训练样本,提高韵律标注模型性能,使得语音合成效果更加自然。
-
公开(公告)号:CN108597492B
公开(公告)日:2019-11-26
申请号:CN201810410481.1
申请日:2018-05-02
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供一种语音合成方法和装置。该方法包括:获取待处理文本的音素特征和韵律及情感特征,根据音素特征和韵律及情感特征,采用预先训练的时长模型,确定待处理文本的语音时长,所述时长模型基于卷积神经网络训练得到,根据音素特征、韵律及情感特征和语音时长,采用预先训练的声学参数模型,确定待处理文本的声学特征参数,所述声学参数模型基于卷积神经网络训练得到,根据声学特征参数,合成待处理文本的语音。本发明实施例的方法,能够在满足实时性要求的前提下,提供音质更高,更加具有情感表现力,更加自然流畅的合成语音。
-
公开(公告)号:CN109308892A
公开(公告)日:2019-02-05
申请号:CN201811251300.1
申请日:2018-10-25
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 康永国
Abstract: 本发明提出一种语音合成播报方法、装置、设备和计算机可读介质。所述方法包括:接收多个发音人的录音数据;提取每个发音人的录音数据的文本特征,并分别对多个发音人进行身份标识;将所述文本特征和发音人的身份标识输入至文本-声学的映射模型,输出语音特征,并建立发音人的文本特征与语音特征的映射关系。本发明实施例可以通过对多个录音人进行混合建模,从而可以多人共享训练数据,从而快速建立文本和声学之间的映射关系。另外,本发明实施例还可以根据当前场景信息选择播报发音人,极大提升文本播报的体验。
-
公开(公告)号:CN108597492A
公开(公告)日:2018-09-28
申请号:CN201810410481.1
申请日:2018-05-02
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供一种语音合成方法和装置。该方法包括:获取待处理文本的音素特征和韵律及情感特征,根据音素特征和韵律及情感特征,采用预先训练的时长模型,确定待处理文本的语音时长,所述时长模型基于卷积神经网络训练得到,根据音素特征、韵律及情感特征和语音时长,采用预先训练的声学参数模型,确定待处理文本的声学特征参数,所述声学参数模型基于卷积神经网络训练得到,根据声学特征参数,合成待处理文本的语音。本发明实施例的方法,能够在满足实时性要求的前提下,提供音质更高,更加具有情感表现力,更加自然流畅的合成语音。
-
公开(公告)号:CN106601228A
公开(公告)日:2017-04-26
申请号:CN201611135605.7
申请日:2016-12-09
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/10
Abstract: 本发明提出一种基于人工智能韵律预测的样本标注方法及装置,其中,方法包括:获取与第一样本音频文件对应的未标注韵律的第一文本序列;获取第一文本序列中每个字的文本特征和发音时长;应用预先训练的韵律标注模型对第一文本序列中每个字的文本特征和发音时长,获取第一文本序列中每个字的输出标记;根据第一文本序列中每个字的输出标记对第一文本序列进行韵律层级标注。由此,降低了文本的标注成本,提高了文本的标注效率和准确性,并能够提供更多的韵律层级标注所需的训练样本,提高韵律标注模型性能,使得语音合成效果更加自然。
-
公开(公告)号:CN104916284B
公开(公告)日:2017-02-22
申请号:CN201510315459.5
申请日:2015-06-10
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种用于语音合成系统的韵律与声学联合建模的方法及装置,其中,该方法包括:根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型;根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合;以及根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型。本发明实施例的用于语音合成系统的韵律与声学联合建模的方法及装置,提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式,通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然,进而可使合成语音更加流畅自然。
-
公开(公告)号:CN105679308A
公开(公告)日:2016-06-15
申请号:CN201610122171.0
申请日:2016-03-03
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L13/08 , G10L15/063 , G10L15/16
Abstract: 本发明提出一种基于人工智能的生成g2p模型的方法和装置及英文语音合成方法和装置,该生成g2p模型的方法包括:获取用于训练g2p模型的语料;采用神经网络对所述语料进行训练,得到g2p模型。该方法能够在提高g2p模型性能的基础上,减小g2p模型的大小,进而提高英文语音合成效果。
-
公开(公告)号:CN105529023A
公开(公告)日:2016-04-27
申请号:CN201610049832.1
申请日:2016-01-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/02 , G10L13/033 , G10L13/047 , G10L13/10
Abstract: 本发明提出一种语音合成方法和装置,该语音合成方法包括:对要合成的文本进行文本特征提取,获取上下文特征信息;获取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数;根据所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型输出参数包括:多个韵律层级的基频参数;对所述多个韵律层级的基频参数进行基频重构;根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。该方法能够提高合成语音的表现效果。
-
公开(公告)号:CN105261355A
公开(公告)日:2016-01-20
申请号:CN201510557009.7
申请日:2015-09-02
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/02
Abstract: 本发明公开了一种语音合成方法和装置。所述语音合成方法,包括:获取目标用户语音数据;根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型。所述语音合成装置包括:目标用户语音数据获取模块,用于获取目标用户语音数据;目标用户声学模型训练模块,用于根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型。本发明实现了在个性化语音合成过程中,降低对用户录音数据的规模要求的效果。
-
-
-
-
-
-
-
-
-