波形生成方法以及相关模型的训练方法和相关设备、装置

    公开(公告)号:CN112820267A

    公开(公告)日:2021-05-18

    申请号:CN202110056064.3

    申请日:2021-01-15

    Abstract: 本申请公开了一种波形生成方法以及相关模型的训练方法和相关设备、装置,其中,波形生成模型的训练方法包括:获取样本音频波形和样本音频波形的样本声学参数;其中,样本音频波形是在现实场景中采集得到的;利用样本声学参数预测得到样本初始幅度谱,并基于样本初始相位谱和样本初始幅度谱,得到样本初始波形;将样本初始波形输入波形生成模型,得到样本生成波形;基于样本生成波形和样本音频波形之间的差异,调整波形生成模型的网络参数。上述方案,能够提高波形生成的质量。

    语音解耦方法、装置、电子设备、存储介质和程序产品

    公开(公告)号:CN119785775A

    公开(公告)日:2025-04-08

    申请号:CN202411940443.9

    申请日:2024-12-26

    Abstract: 本发明提供一种语音解耦方法、装置、电子设备、存储介质和程序产品,涉及音频处理技术领域。方法包括:将待解耦语音数据分别输入至音色编码器和韵律编码器,得到音色编码器输出的解耦音色信息,以及韵律编码器输出的解耦韵律信息;其中,第一重构损失是基于第一发音者的样本音频数据和第一发音者的重构音频数据确定的,第一发音者的重构音频数据是基于第一发音者对应的目标音色信息和第一发音者对应的目标韵律信息重构的。本发明通过第一重构损失可以约束音色编码器的音色保持能力,从而提高音色解耦的充分性,以及可以约束韵律编码器的韵律保持能力,从而提高韵律解耦的充分性;且本发明还可以提高语音解耦泛化性。

    语音信号合成方法、装置、电子设备及存储介质

    公开(公告)号:CN119517000A

    公开(公告)日:2025-02-25

    申请号:CN202411781292.7

    申请日:2024-12-05

    Abstract: 本发明提供一种语音信号合成方法、装置、电子设备及存储介质,涉及语音合成技术领域,该方法在帧级别预测语音信号的幅度谱和相位谱,避免了计算量大的上采样结构以及转置卷积带来的周期噪声问题。而且,该方法从输入的语音信号梅尔谱中获取帧级别的基频,并确定浊音帧和非浊音帧,通过能量信息分配的方式生成参考幅度谱,可以为逐帧预测语音信号的幅度谱和相位谱提供额外的幅度谱信息,降低预测难度,进而提高语音信号的合成效率和质量。

    合成语音处理方法及相关装置

    公开(公告)号:CN113066472B

    公开(公告)日:2024-05-31

    申请号:CN201911297777.8

    申请日:2019-12-13

    Abstract: 本申请实施例公开了一种合成语音处理方法及相关装置,方法包括:获取针对第一用户的原始合成语音;提取所述原始合成语音的幅度谱和相位谱,所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱;通过预先训练好的正向生成器模型处理所述其他维幅度谱,得到对应的增强幅度谱;根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。本申请提供的合成语音处理方法,能够改善合成语音的自然度、相似度,使之更接近自然语音,提升用户的交互体验。

    获得预测模型的方法、语音波形的预测方法及相关装置

    公开(公告)号:CN112767957B

    公开(公告)日:2024-05-31

    申请号:CN202011627633.7

    申请日:2020-12-31

    Inventor: 伍宏传 胡亚军

    Abstract: 本申请公开了一种获得预测模型的方法、语音波形的预测方法、电子设备和计算机可读存储介质,所述获得预测模型的方法首先将样本语音波形划分为若干个样本子序列,并进行时延处理,然后构建初始预测模型,并依据若干个样本子序列和样本语音波形的声学参数训练初始预测模型,获得预测模型。其中,将若干个样本子序列中当前波形点的波形值同时输入上述预测模型,能够同时获得若干个样本子序列中下一波形点的预测波形值。因此,本申请能够减少预测生成语音波形的计算量,提高生成语音波形的效率,从而能够实现实时生成语音波形的目的,且实时生成语音波形时不容易发生卡顿。

    语音合成方法、装置、电子设备和存储介质

    公开(公告)号:CN116013247A

    公开(公告)日:2023-04-25

    申请号:CN202211731625.6

    申请日:2022-12-30

    Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:获取待合成的文本,以及控制语音合成的目标情感强度;基于各预设情感档位的档位情感特征,确定所述目标情感强度下的全局情感特征;基于所述文本以及所述全局情感特征进行语音合成,克服了传统方案中合成语音缺乏情感或情感表达单一,缺失情感间的转变,以致合成语音的情感表达效果不佳的缺陷,通过全局情感特征控制语音合成,可以在情感空间上定位情感方向和情感强度,实现了合成语音在不同情感上的信息表达,以及在情感强度上的情感化表达,提升了合成语音的情感表现力,优化了表达效果。

Patent Agency Ranking