通用语音、目标语音合成模型的训练方法及相关装置

    公开(公告)号:CN113345410A

    公开(公告)日:2021-09-03

    申请号:CN202110513379.6

    申请日:2021-05-11

    Abstract: 本发明提供一种通用语音、目标语音合成模型的训练方法及相关装置,其中通用语音合成模型的训练方法包括:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,语音样本数据为非标注文本信息的样本数据;利用语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。本申请的方法采用未标注文本信息的语音样本数据即可训练得到语音合成模型,其能够降低训练语音合成模型的代价以及困难度。

    泰语语音合成方法、装置以及设备

    公开(公告)号:CN112735378B

    公开(公告)日:2024-05-31

    申请号:CN202011591432.6

    申请日:2020-12-29

    Abstract: 本发明公开了一种泰语语音合成方法、装置以及设备,本发明的构思在于针对现有技术在文本前端进行韵律划分时切分的粒度控制不够精细、准确率低,尤其是粗糙的文本前端处理不能适应端到端合成技术的需求,导致合成的泰语语音不自然表现力低等问题,提出结合待合成文本的上下文信息、预设的单词匹配规则以及构建的音节切分模型分别对语句、词语、音节进行切分,一方面使得本发明涉及的韵律层级包含了更为全面的三个层级维度,另一方面使得各韵律层级的划分结果更为精细、准确。可见,本发明可以显著提升合成的泰语语音在诸如停顿、节奏等方面获得精准表现,从而使其听感更为自然,同时也有效适配了端到端合成处理的需求。

    语音合成方法、装置、设备及存储介质

    公开(公告)号:CN112735373B

    公开(公告)日:2024-05-03

    申请号:CN202011622887.X

    申请日:2020-12-31

    Abstract: 本申请公开了一种语音合成方法、装置、设备及存储介质,本申请获取到原始文本、原始文本对应的音素序列,以及待合成语音的说话人特征,进而将原始文本以及音素序列进行特征融合,得到融合特征,进而基于融合特征及说话人特征进行编解码处理,得到声学频谱,并基于声学频谱进行语音合成,得到合成语音。本申请通过融合原始文本及音素序列得到融合特征,丰富了输入信息,并且能够挖掘不同语种特有的发音信息,示例如,中文的调型、日语的调核、俄语的重音等均可以通过音素序列得以展示,基于此得到声学频谱并进行语音合成,得到的合成语音更加自然、符合对应语种的发音特点,也即合成语音的质量更高。

    语音合成方法、装置、设备及存储介质

    公开(公告)号:CN112735373A

    公开(公告)日:2021-04-30

    申请号:CN202011622887.X

    申请日:2020-12-31

    Abstract: 本申请公开了一种语音合成方法、装置、设备及存储介质,本申请获取到原始文本、原始文本对应的音素序列,以及待合成语音的说话人特征,进而将原始文本以及音素序列进行特征融合,得到融合特征,进而基于融合特征及说话人特征进行编解码处理,得到声学频谱,并基于声学频谱进行语音合成,得到合成语音。本申请通过融合原始文本及音素序列得到融合特征,丰富了输入信息,并且能够挖掘不同语种特有的发音信息,示例如,中文的调型、日语的调核、俄语的重音等均可以通过音素序列得以展示,基于此得到声学频谱并进行语音合成,得到的合成语音更加自然、符合对应语种的发音特点,也即合成语音的质量更高。

    通用语音、目标语音合成模型的训练方法及相关装置

    公开(公告)号:CN113345410B

    公开(公告)日:2024-05-31

    申请号:CN202110513379.6

    申请日:2021-05-11

    Abstract: 本发明提供一种通用语音、目标语音合成模型的训练方法及相关装置,其中通用语音合成模型的训练方法包括:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,语音样本数据为非标注文本信息的样本数据;利用语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。本申请的方法采用未标注文本信息的语音样本数据即可训练得到语音合成模型,其能够降低训练语音合成模型的代价以及困难度。

    一种多语种文本生成方法、装置、设备及存储介质

    公开(公告)号:CN113743089B

    公开(公告)日:2024-08-27

    申请号:CN202111033454.5

    申请日:2021-09-03

    Abstract: 本申请提供了一种多语种文本生成方法、装置、设备及存储介质,其中,方法包括:获取多语种单词表,多语种单词表包含多个词条,每个词条包括一个单词以及该单词的语种信息;利用预先建立的多语种文本生成模型,以多语种单词表为依据生成多语种文本,其中,多语种文本生成模型以生成符合真实多语种文本特点的多语种文本为生成目标进行文本生成。经由本申请提供的多语种文本生成方法能够生成流畅自然、符合人类表达习惯的多语种文本。

    一种多语种文本生成方法、装置、设备及存储介质

    公开(公告)号:CN113743089A

    公开(公告)日:2021-12-03

    申请号:CN202111033454.5

    申请日:2021-09-03

    Abstract: 本申请提供了一种多语种文本生成方法、装置、设备及存储介质,其中,方法包括:获取多语种单词表,多语种单词表包含多个词条,每个词条包括一个单词以及该单词的语种信息;利用预先建立的多语种文本生成模型,以多语种单词表为依据生成多语种文本,其中,多语种文本生成模型以生成符合真实多语种文本特点的多语种文本为生成目标进行文本生成。经由本申请提供的多语种文本生成方法能够生成流畅自然、符合人类表达习惯的多语种文本。

    泰语语音合成方法、装置以及设备

    公开(公告)号:CN112735378A

    公开(公告)日:2021-04-30

    申请号:CN202011591432.6

    申请日:2020-12-29

    Abstract: 本发明公开了一种泰语语音合成方法、装置以及设备,本发明的构思在于针对现有技术在文本前端进行韵律划分时切分的粒度控制不够精细、准确率低,尤其是粗糙的文本前端处理不能适应端到端合成技术的需求,导致合成的泰语语音不自然表现力低等问题,提出结合待合成文本的上下文信息、预设的单词匹配规则以及构建的音节切分模型分别对语句、词语、音节进行切分,一方面使得本发明涉及的韵律层级包含了更为全面的三个层级维度,另一方面使得各韵律层级的划分结果更为精细、准确。可见,本发明可以显著提升合成的泰语语音在诸如停顿、节奏等方面获得精准表现,从而使其听感更为自然,同时也有效适配了端到端合成处理的需求。

Patent Agency Ranking