韵律停顿信息的确定方法和装置

    公开(公告)号:CN105225658A

    公开(公告)日:2016-01-06

    申请号:CN201510689302.9

    申请日:2015-10-21

    Inventor: 康永国

    Abstract: 本发明提出一种韵律停顿信息的确定方法和装置,该韵律停顿信息的确定方法包括:提取待合成文本的韵律预测特征;根据所用的发音人选择所述发音人对应的自适应韵律预测模型;将所述待合成文本的韵律预测特征输入到所述发音人对应的自适应韵律预测模型中,以确定所述待合成文本的韵律停顿信息。本发明解决了声学模型和韵律模型两者所用韵律训练数据不一致的问题,改善了韵律节奏,提升了合成流畅度,并且使用发音人各自的自适应韵律预测模型,使得多发音人切换的场合的合成效果更加自然。

    语音合成播报方法、装置、设备及计算机可读介质

    公开(公告)号:CN109308892B

    公开(公告)日:2020-09-01

    申请号:CN201811251300.1

    申请日:2018-10-25

    Inventor: 康永国

    Abstract: 本发明提出一种语音合成播报方法、装置、设备和计算机可读介质。所述方法包括:接收多个发音人的录音数据;提取每个发音人的录音数据的文本特征,并分别对多个发音人进行身份标识;将所述文本特征和发音人的身份标识输入至文本‑声学的映射模型,输出语音特征,并建立发音人的文本特征与语音特征的映射关系。本发明实施例可以通过对多个录音人进行混合建模,从而可以多人共享训练数据,从而快速建立文本和声学之间的映射关系。另外,本发明实施例还可以根据当前场景信息选择播报发音人,极大提升文本播报的体验。

    语音合成模型生成方法和装置

    公开(公告)号:CN107464554B

    公开(公告)日:2020-08-25

    申请号:CN201710898536.3

    申请日:2017-09-28

    Inventor: 康永国

    Abstract: 本申请公开了语音合成模型生成方法和装置。该方法的一具体实施方式包括:获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。实现了仅利用多个播报员的各自的不同的单一风格的语音对语音合成模型对应神经网络进行训练,得到可以合成每一个播报员的多个不同风格的语音的语音合成模型,降低训练开销。

    语音合成方法和语音合成装置

    公开(公告)号:CN105845125B

    公开(公告)日:2019-05-03

    申请号:CN201610329738.1

    申请日:2016-05-18

    Inventor: 李昊 康永国

    Abstract: 本发明公开了一种语音合成方法以及装置。其中方法包括:确定待合成语句文本信息所属的语种类型,其中,语种类型包括第一语种类型和第二语种类型;确定第一语种类型对应的第一基础模型,并确定第二语种类型对应的第二基础模型;确定目标音色,并根据目标音色分别对第一基础模型、第二基础模型进行自适应变换,并根据自适应变换后的第一基础模型、第二基础模型对待合成语句文本信息进行训练,以生成对应的谱参数和基频参数;根据目标音色对第一语种类型和第二语种类型的基频参数进行调整;依据第一语种类型的谱参数、第二语种类型的谱参数、调整后的第一语种类型的基频参数、第二语种类型的基频参数合成目标语音。

    韵律停顿信息的确定方法和装置

    公开(公告)号:CN105225658B

    公开(公告)日:2018-10-19

    申请号:CN201510689302.9

    申请日:2015-10-21

    Inventor: 康永国

    Abstract: 本发明提出一种韵律停顿信息的确定方法和装置,该韵律停顿信息的确定方法包括:提取待合成文本的韵律预测特征;根据所用的发音人选择所述发音人对应的自适应韵律预测模型;将所述待合成文本的韵律预测特征输入到所述发音人对应的自适应韵律预测模型中,以确定所述待合成文本的韵律停顿信息。本发明解决了声学模型和韵律模型两者所用韵律训练数据不一致的问题,改善了韵律节奏,提升了合成流畅度,并且使用发音人各自的自适应韵律预测模型,使得多发音人切换的场合的合成效果更加自然。

    语音合成模型的训练方法及装置

    公开(公告)号:CN105118498B

    公开(公告)日:2018-07-31

    申请号:CN201510559930.5

    申请日:2015-09-06

    Inventor: 康永国 盖于涛

    Abstract: 本发明实施例公开了种语音合成模型的训练方法及装置。所述方法包括:初始化将用于语音合成的深层神经网络模型;利用从至少个发音人的大规模语料数据中提取的文本特征及声学特征,训练经过初始化的深层神经网络模型,以得到初步的深层神经网络模型;利用从目标发音人的小规模语料数据中提取的文本特征及声学特征,训练所述初步的深层神经网络模型,以得到最终应用于语音合成的深层神经网络模型。本发明实施例提供的语音合成模型的训练方法及装置提高了使用少量样本语料数据的语音合成系统的合成语音质量。

    语音合成模型生成方法和装置

    公开(公告)号:CN107464554A

    公开(公告)日:2017-12-12

    申请号:CN201710898536.3

    申请日:2017-09-28

    Inventor: 康永国

    Abstract: 本申请公开了语音合成模型生成方法和装置。该方法的一具体实施方式包括:获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。实现了仅利用多个播报员的各自的不同的单一风格的语音对语音合成模型对应神经网络进行训练,得到可以合成每一个播报员的多个不同风格的语音的语音合成模型,降低训练开销。

    用于语音合成的深度神经网络模型的训练方法及装置

    公开(公告)号:CN104934028B

    公开(公告)日:2017-11-17

    申请号:CN201510339032.9

    申请日:2015-06-17

    Inventor: 盖于涛 康永国

    Abstract: 本发明提出一种用于语音合成的深度神经网络模型的训练方法及装置,其中,该方法包括:从训练语料中提取上下文语境特征和音子边界特征;从训练语料提取声学特征参数;将上下文语境特征作为深度神经网络模型的输入特征,并将音子边界特征、声学参数特征和相邻时长特征作为深度神经网络模型的输出特征,对深度神经网络模型进行训练。本发明实施例的用于语音合成的深度神经网络模型的训练方法及装置,提供了一种语境特征、声学特征与音子边界特征同步建模的方式,增加了声学特征与语境特征对时长的同步约束,所建立的模型符合人的发音特性,模型准确度较高。

    高表现力的语音合成方法和装置

    公开(公告)号:CN104392716B

    公开(公告)日:2017-10-13

    申请号:CN201410645715.2

    申请日:2014-11-12

    Abstract: 本发明实施例公开了一种高表现力的语音合成方法和装置。所述高表现力的语音合成方法包括:将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型;根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音,包括利用声码器将声学参数来合成语音或者用声学参数指导声学片段的单元挑选来生成语音。本发明实施例提供的高表现力的语音合成方法和装置提高了合成语音的自然度。

    语音标注方法及装置
    40.
    发明授权

    公开(公告)号:CN105374350B

    公开(公告)日:2017-05-17

    申请号:CN201510633281.9

    申请日:2015-09-29

    Abstract: 本发明实施例公开了一种语音标注方法及装置,其中所述方法包括:采用第一声学模型对输入语料的特征信息进行对齐,得到第一音段标注结果,所述特征信息包括语音特征和文本特征,所述第一音段标注结果中包含语音特征和文本特征的初始对应关系;采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练,得到第二音段标注结果,所述第二音段标注结果中包含语音特征和文本特征的最终对应关系;将所述第二音段标注结果做为语音合成时采用的音段标注结果。本发明实施例能够准确的对输入语料进行音段标注。

Patent Agency Ranking