-
公开(公告)号:CN114299911A
公开(公告)日:2022-04-08
申请号:CN202111630204.X
申请日:2021-12-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法及相关装置、电子设备和存储介质,其中,语音合成方法包括:将待合成文本进行口语化转换,得到口语化文本;其中,口语化转换参考至少一种转换模式;提取口语化文本的音素序列,并预测口语化文本的口语化控制标签;其中,口语化控制标签用于控制发音状态;基于音素序列和口语化控制标签,合成得到待合成文本的口语化语音。上述方案,能够实现口语化的语音合成,以提升用户交互体验。
-
公开(公告)号:CN112863539A
公开(公告)日:2021-05-28
申请号:CN201911188336.4
申请日:2019-11-28
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0332 , G10L19/04 , G10L15/06 , G10L25/18
Abstract: 本申请提供了一种高采样率语音波形重建方法、装置、设备及存储介质,其中,方法包括:获取待重建语音波形的条件特征;根据待重建语音波形的条件特征分别构建低采样率语音波形和残差语音波形,其中,低采样率语音波形能够反映待重建语音波形的整体形状,残差语音波形能够反映待重建语音波形的局部精细结构;根据低采样率语音波形和残差语音波形,重建高采样率语音波形。本申请根据低采样率语音波形和残差语音波形能够重建出高质量的高采样率语音波形。
-
公开(公告)号:CN112863539B
公开(公告)日:2024-04-16
申请号:CN201911188336.4
申请日:2019-11-28
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0332 , G10L19/04 , G10L15/06 , G10L25/18
Abstract: 本申请提供了一种高采样率语音波形重建方法、装置、设备及存储介质,其中,方法包括:获取待重建语音波形的条件特征;根据待重建语音波形的条件特征分别构建低采样率语音波形和残差语音波形,其中,低采样率语音波形能够反映待重建语音波形的整体形状,残差语音波形能够反映待重建语音波形的局部精细结构;根据低采样率语音波形和残差语音波形,重建高采样率语音波形。本申请根据低采样率语音波形和残差语音波形能够重建出高质量的高采样率语音波形。
-
公开(公告)号:CN115775554A
公开(公告)日:2023-03-10
申请号:CN202211521669.6
申请日:2022-11-30
Applicant: 科大讯飞股份有限公司
IPC: G10L13/08 , G10L13/02 , G06F40/289 , G06F16/33
Abstract: 本申请公开了一种多音字消歧方法、装置、存储介质及设备,该方法包括:首先获取包含目标多音字的目标文本,并对其进行分词处理,得到其包含目标多音字的目标分词,然后判断目标分词是否包含在预先构建的无歧义词典中,若是,则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本中目标多音字的发音;若否,则将目标文本输入预先构建的多音字消歧模型,预测得到目标多音字的发音。由于本申请是先根据字典中多音字语义和发音的对应关系构建了多音字消歧模型,并利用部分多音字在分词中的发音无歧义的特性构建了无歧义词典,从而在多音字消歧过程中,能够结合该多音字消歧模型、分词信息和无歧义词典,更为准确的确定出多音字的发音。
-
公开(公告)号:CN113066472A
公开(公告)日:2021-07-02
申请号:CN201911297777.8
申请日:2019-12-13
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种合成语音处理方法及相关装置,方法包括:获取针对第一用户的原始合成语音;提取所述原始合成语音的幅度谱和相位谱,所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱;通过预先训练好的正向生成器模型处理所述其他维幅度谱,得到对应的增强幅度谱;根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。本申请提供的合成语音处理方法,能够改善合成语音的自然度、相似度,使之更接近自然语音,提升用户的交互体验。
-
公开(公告)号:CN112767957A
公开(公告)日:2021-05-07
申请号:CN202011627633.7
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种获得预测模型的方法、语音波形的预测方法、电子设备和计算机可读存储介质,所述获得预测模型的方法首先将样本语音波形划分为若干个样本子序列,并进行时延处理,然后构建初始预测模型,并依据若干个样本子序列和样本语音波形的声学参数训练初始预测模型,获得预测模型。其中,将若干个样本子序列中当前波形点的波形值同时输入上述预测模型,能够同时获得若干个样本子序列中下一波形点的预测波形值。因此,本申请能够减少预测生成语音波形的计算量,提高生成语音波形的效率,从而能够实现实时生成语音波形的目的,且实时生成语音波形时不容易发生卡顿。
-
公开(公告)号:CN113053356B
公开(公告)日:2024-05-31
申请号:CN201911382443.0
申请日:2019-12-27
Applicant: 科大讯飞股份有限公司
IPC: G10L13/08 , G10L19/00 , G10L19/04 , G10L21/0332 , G10L25/12 , G10L25/18 , G10L25/24 , G10L25/30 , G10L15/06
Abstract: 本申请实施例提供一种语音波形生成方法、装置、服务器及存储介质,该方法包括:获取输入文本;从输入文本中提取条件特征;将条件特征输入训练得到的波形生成模型,对条件特征进行处理,得到语音波形;波形生成模型包括先验分布估计网络和波形生成网络,先验分布估计网络在训练阶段用于学习自然语音波形的编码信息,波形生成网络用于根据条件特征和先验分布估计网络的输出结果生成语音波形。本申请实施例可以提高波形生成效率。
-
公开(公告)号:CN112820267B
公开(公告)日:2022-10-04
申请号:CN202110056064.3
申请日:2021-01-15
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种波形生成方法以及相关模型的训练方法和相关设备、装置,其中,波形生成模型的训练方法包括:获取样本音频波形和样本音频波形的样本声学参数;其中,样本音频波形是在现实场景中采集得到的;利用样本声学参数预测得到样本初始幅度谱,并基于样本初始相位谱和样本初始幅度谱,得到样本初始波形;将样本初始波形输入波形生成模型,得到样本生成波形;基于样本生成波形和样本音频波形之间的差异,调整波形生成模型的网络参数。上述方案,能够提高波形生成的质量。
-
公开(公告)号:CN114299912A
公开(公告)日:2022-04-08
申请号:CN202111646833.1
申请日:2021-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法及相关装置、设备和存储介质,该方法包括:基于待合成文本,提取若干帧级声学特征;分别基于各帧级声学特征分别进行预测,得到各帧级声学特征分别对应的声学参数;基于激励参数、噪声参数和帧级声学特征对应的声学参数进行融合,得到帧级声学特征对应的频谱值;基于各帧级声学特征分别对应的频谱值,得到合成语音。上述方案,能够提高语音合成的效率和质量。
-
公开(公告)号:CN113053356A
公开(公告)日:2021-06-29
申请号:CN201911382443.0
申请日:2019-12-27
Applicant: 科大讯飞股份有限公司
IPC: G10L13/08 , G10L19/00 , G10L19/04 , G10L21/0332 , G10L25/12 , G10L25/18 , G10L25/24 , G10L25/30 , G10L15/06
Abstract: 本申请实施例提供一种语音波形生成方法、装置、服务器及存储介质,该方法包括:获取输入文本;从输入文本中提取条件特征;将条件特征输入训练得到的波形生成模型,对条件特征进行处理,得到语音波形;波形生成模型包括先验分布估计网络和波形生成网络,先验分布估计网络在训练阶段用于学习自然语音波形的编码信息,波形生成网络用于根据条件特征和先验分布估计网络的输出结果生成语音波形。本申请实施例可以提高波形生成效率。
-
-
-
-
-
-
-
-
-