一种基于矫正流模型的高质量语音合成方法

    公开(公告)号:CN117292672B

    公开(公告)日:2024-01-30

    申请号:CN202311587465.7

    申请日:2023-11-27

    Applicant: 厦门大学

    Abstract: 本申请提供了一种基于矫正流模型的高质量语音合成方法,基于RK45 ODE Solver进行采样时能够得到较好的音频生成质量,和大多数现存的基于扩散的语音合成模型相比,在使用Euler ODE Solver进行一步采样时也能够得到很好的音频生成质量,而且整个训练过程是简单有效的,也不需要预先训练一个教师模型得到更好的音频质量,显著提高了真实场景中的高质量语音合成的可用性。

    一种基于矫正流模型的高质量语音合成方法

    公开(公告)号:CN117292672A

    公开(公告)日:2023-12-26

    申请号:CN202311587465.7

    申请日:2023-11-27

    Applicant: 厦门大学

    Abstract: 本申请提供了一种基于矫正流模型的高质量语音合成方法,基于RK45 ODE Solver进行采样时能够得到较好的音频生成质量,和大多数现存的基于扩散的语音合成模型相比,在使用Euler ODE Solver进行一步采样时也能够得到很好的音频生成质量,而且整个训练过程是简单有效的,也不需要预先训练一个教师模型得到更好的音频质量,显著提高了真实场景中的高质量语音合成的可用性。

Patent Agency Ranking