泰语语音合成方法、装置以及设备

    公开(公告)号:CN112735378B

    公开(公告)日:2024-05-31

    申请号:CN202011591432.6

    申请日:2020-12-29

    Abstract: 本发明公开了一种泰语语音合成方法、装置以及设备,本发明的构思在于针对现有技术在文本前端进行韵律划分时切分的粒度控制不够精细、准确率低,尤其是粗糙的文本前端处理不能适应端到端合成技术的需求,导致合成的泰语语音不自然表现力低等问题,提出结合待合成文本的上下文信息、预设的单词匹配规则以及构建的音节切分模型分别对语句、词语、音节进行切分,一方面使得本发明涉及的韵律层级包含了更为全面的三个层级维度,另一方面使得各韵律层级的划分结果更为精细、准确。可见,本发明可以显著提升合成的泰语语音在诸如停顿、节奏等方面获得精准表现,从而使其听感更为自然,同时也有效适配了端到端合成处理的需求。

    语音合成方法、装置、设备及存储介质

    公开(公告)号:CN112735373B

    公开(公告)日:2024-05-03

    申请号:CN202011622887.X

    申请日:2020-12-31

    Abstract: 本申请公开了一种语音合成方法、装置、设备及存储介质,本申请获取到原始文本、原始文本对应的音素序列,以及待合成语音的说话人特征,进而将原始文本以及音素序列进行特征融合,得到融合特征,进而基于融合特征及说话人特征进行编解码处理,得到声学频谱,并基于声学频谱进行语音合成,得到合成语音。本申请通过融合原始文本及音素序列得到融合特征,丰富了输入信息,并且能够挖掘不同语种特有的发音信息,示例如,中文的调型、日语的调核、俄语的重音等均可以通过音素序列得以展示,基于此得到声学频谱并进行语音合成,得到的合成语音更加自然、符合对应语种的发音特点,也即合成语音的质量更高。

    语音合成方法、装置、电子设备及存储介质

    公开(公告)号:CN115938341A

    公开(公告)日:2023-04-07

    申请号:CN202211713844.1

    申请日:2022-12-29

    Abstract: 本发明实施例提供一种语音合成方法、装置、电子设备及存储介质,该方法包括:获取目标文本;对所述目标文本进行韵律层级预测,得到所述目标文本的韵律边界信息;基于所述韵律边界信息中的韵律词边界,确定所述目标文本中的各韵律词;获取所述目标文本对应的方言声韵调,并基于所述方言声韵调确定各所述韵律词对应的方言连读变调模式,所述方言连读变调模式用于指示各所述韵律词中的连读变调边界;基于所述韵律边界信息和所述方言连读变调模式,合成所述目标文本对应的方言语音。本发明实施例提供的语音合成方法、装置、电子设备及存储介质可以提高语音合成的准确性和可懂度。

    阿拉伯语元音恢复方法、装置、设备及存储介质

    公开(公告)号:CN113011135B

    公开(公告)日:2024-08-23

    申请号:CN202110234392.8

    申请日:2021-03-03

    Abstract: 本申请公开了一种阿拉伯语元音恢复方法、装置、设备及存储介质,本申请利用无元音标注的阿语训练文本训练语言模型,可以基于大批量阿语训练文本训练得到对于阿语的单词有较好的泛化表示能力的语言模型,进而对于待处理阿语文本,利用语言模型确定待处理阿语文本中每一单词的特征表示,并获取待处理阿语文本中每一字符的文本特征,基于每一字符的文本特征,及每一字符所属单词的特征表示,确定待处理阿语文本中各字符对应的元音标注结果。本申请在对进行元音恢复时,同时参考了每一字符的文本特征及其所属单词的特征表示,也即参考信息更加丰富,同时借助于语言模型对阿语单词较好的泛化表示能力,可以提高各字符所预测的元音的准确度。

    通用语音、目标语音合成模型的训练方法及相关装置

    公开(公告)号:CN113345410A

    公开(公告)日:2021-09-03

    申请号:CN202110513379.6

    申请日:2021-05-11

    Abstract: 本发明提供一种通用语音、目标语音合成模型的训练方法及相关装置,其中通用语音合成模型的训练方法包括:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,语音样本数据为非标注文本信息的样本数据;利用语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。本申请的方法采用未标注文本信息的语音样本数据即可训练得到语音合成模型,其能够降低训练语音合成模型的代价以及困难度。

    一种数字正则化方法、装置、设备及存储介质

    公开(公告)号:CN114548049A

    公开(公告)日:2022-05-27

    申请号:CN202210202517.3

    申请日:2022-03-02

    Abstract: 本申请公开了一种数字正则化方法、装置、设备及存储介质,本申请对于包含待正则化处理的数字的原始文本,确定其中数字的属性标签,数字的属性可以是影响数字正则化结果的相关属性,在此基础上,基于数字的属性标签及数字在原始文本中的上下文信息,将数字正则化为与原始文本同语种的单词表示,得到数字的正则化结果。本申请方案不需要针对不同语种总结数字正则化规则,流程更加简洁,并且在数字正则化时可以充分利用原始文本中数字的上下文信息,能够消除一些正则化结果上的歧义问题,提升正则化结果的准确度,进一步,数字正则化过程还参考数字的属性标签,也即考虑了数字的不同属性对正则化的影响,有助于进一步提升正则化结果的准确度。

    语音合成方法、装置、设备及存储介质

    公开(公告)号:CN112735373A

    公开(公告)日:2021-04-30

    申请号:CN202011622887.X

    申请日:2020-12-31

    Abstract: 本申请公开了一种语音合成方法、装置、设备及存储介质,本申请获取到原始文本、原始文本对应的音素序列,以及待合成语音的说话人特征,进而将原始文本以及音素序列进行特征融合,得到融合特征,进而基于融合特征及说话人特征进行编解码处理,得到声学频谱,并基于声学频谱进行语音合成,得到合成语音。本申请通过融合原始文本及音素序列得到融合特征,丰富了输入信息,并且能够挖掘不同语种特有的发音信息,示例如,中文的调型、日语的调核、俄语的重音等均可以通过音素序列得以展示,基于此得到声学频谱并进行语音合成,得到的合成语音更加自然、符合对应语种的发音特点,也即合成语音的质量更高。

    通用语音、目标语音合成模型的训练方法及相关装置

    公开(公告)号:CN113345410B

    公开(公告)日:2024-05-31

    申请号:CN202110513379.6

    申请日:2021-05-11

    Abstract: 本发明提供一种通用语音、目标语音合成模型的训练方法及相关装置,其中通用语音合成模型的训练方法包括:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,语音样本数据为非标注文本信息的样本数据;利用语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。本申请的方法采用未标注文本信息的语音样本数据即可训练得到语音合成模型,其能够降低训练语音合成模型的代价以及困难度。

    一种信息预测模块的构建方法、信息预测方法及相关设备

    公开(公告)号:CN114333760A

    公开(公告)日:2022-04-12

    申请号:CN202111679120.5

    申请日:2021-12-31

    Abstract: 本申请提供了一种信息预测模块的构建方法、信息预测方法及相关设备,构建方法包括:以能获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;基于文本处理模块和预设的多种语音合成前端信息预测任务构建多任务处理模块;对多任务处理模块进行处理,以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力,处理后的模块作为构建的信息预测模块。经由本申请提供的构建方法可构建出同时对多种语音合成前端信息进行预测的模块。在构建方法的基础上,本申请还提供了可同时预测多种语音合成前端信息的信息预测方法,在此基础上,本申请还提供了可同时预测出较为准确的韵律词边界和调核位置的信息预测方法。

    一种数字正则化方法、装置、设备及存储介质

    公开(公告)号:CN114548049B

    公开(公告)日:2025-01-07

    申请号:CN202210202517.3

    申请日:2022-03-02

    Abstract: 本申请公开了一种数字正则化方法、装置、设备及存储介质,本申请对于包含待正则化处理的数字的原始文本,确定其中数字的属性标签,数字的属性可以是影响数字正则化结果的相关属性,在此基础上,基于数字的属性标签及数字在原始文本中的上下文信息,将数字正则化为与原始文本同语种的单词表示,得到数字的正则化结果。本申请方案不需要针对不同语种总结数字正则化规则,流程更加简洁,并且在数字正则化时可以充分利用原始文本中数字的上下文信息,能够消除一些正则化结果上的歧义问题,提升正则化结果的准确度,进一步,数字正则化过程还参考数字的属性标签,也即考虑了数字的不同属性对正则化的影响,有助于进一步提升正则化结果的准确度。

Patent Agency Ranking