-
公开(公告)号:CN119785775A
公开(公告)日:2025-04-08
申请号:CN202411940443.9
申请日:2024-12-26
Applicant: 科大讯飞股份有限公司
IPC: G10L15/08 , G10L15/18 , G10L19/04 , G10L19/008 , G10L25/51
Abstract: 本发明提供一种语音解耦方法、装置、电子设备、存储介质和程序产品,涉及音频处理技术领域。方法包括:将待解耦语音数据分别输入至音色编码器和韵律编码器,得到音色编码器输出的解耦音色信息,以及韵律编码器输出的解耦韵律信息;其中,第一重构损失是基于第一发音者的样本音频数据和第一发音者的重构音频数据确定的,第一发音者的重构音频数据是基于第一发音者对应的目标音色信息和第一发音者对应的目标韵律信息重构的。本发明通过第一重构损失可以约束音色编码器的音色保持能力,从而提高音色解耦的充分性,以及可以约束韵律编码器的韵律保持能力,从而提高韵律解耦的充分性;且本发明还可以提高语音解耦泛化性。
-
公开(公告)号:CN119517000A
公开(公告)日:2025-02-25
申请号:CN202411781292.7
申请日:2024-12-05
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/033 , G10L13/08 , G10L25/24 , G10L25/93
Abstract: 本发明提供一种语音信号合成方法、装置、电子设备及存储介质,涉及语音合成技术领域,该方法在帧级别预测语音信号的幅度谱和相位谱,避免了计算量大的上采样结构以及转置卷积带来的周期噪声问题。而且,该方法从输入的语音信号梅尔谱中获取帧级别的基频,并确定浊音帧和非浊音帧,通过能量信息分配的方式生成参考幅度谱,可以为逐帧预测语音信号的幅度谱和相位谱提供额外的幅度谱信息,降低预测难度,进而提高语音信号的合成效率和质量。
-