-
公开(公告)号:CN119811363A
公开(公告)日:2025-04-11
申请号:CN202510304422.6
申请日:2025-03-14
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08 , G10L13/10 , G06F40/263 , G06F40/279 , G06F40/30 , G06N3/0455 , G06N3/088 , G06N3/094
Abstract: 本申请公开了一种语音合成方法、装置、设备和存储介质,该方法包括:获取待合成文本对应的音素序列;基于时长预测相关信息进行时长预测,得到待合成文本对应的目标时长信息,其中,时长预测相关信息包括参考语音的参考时长信息、待合成文本和音素序列;基于目标时长信息进行语音表征预测,得到目标细粒度语音表征;基于目标细粒度语音表征合成目标语音。上述方案,能够提升语音合成的效果。
-
公开(公告)号:CN114333760B
公开(公告)日:2023-06-02
申请号:CN202111679120.5
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/08 , G10L13/10 , G06F16/35 , G06F40/242 , G06F40/284 , G06F40/289 , G06F40/30 , G06N3/045 , G06N3/08
Abstract: 本申请提供了一种信息预测模块的构建方法、信息预测方法及相关设备,构建方法包括:以能获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;基于文本处理模块和预设的多种语音合成前端信息预测任务构建多任务处理模块;对多任务处理模块进行处理,以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力,处理后的模块作为构建的信息预测模块。经由本申请提供的构建方法可构建出同时对多种语音合成前端信息进行预测的模块。在构建方法的基础上,本申请还提供了可同时预测多种语音合成前端信息的信息预测方法,在此基础上,本申请还提供了可同时预测出较为准确的韵律词边界和调核位置的信息预测方法。
-
公开(公告)号:CN114299913A
公开(公告)日:2022-04-08
申请号:CN202111677661.4
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种基于焦点信息的语音合成方法、装置、设备和存储介质,所述方法根据文本样本以及对应的样本焦点分级标签学习文本中的焦点信息,并训练生成焦点预测模型。然后通过焦点预测模型预测用于表示待合成文本的需强调文本的目标焦点分级信息。并根据目标焦点分级信息,控制待合成文本对应的具有韵律变化的目标合成语音。由此,根据目标焦点分级信息,突出了待合成文本中需强调的焦点文本,使需强调的焦点文本与非焦点文本在目标合成语音中产生了韵律变化,提升了合成语音的韵律自然度,解决了目前合成语音的韵律自然度低下的技术问题。
-
公开(公告)号:CN114333760A
公开(公告)日:2022-04-12
申请号:CN202111679120.5
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/08 , G10L13/10 , G06F16/35 , G06F40/242 , G06F40/284 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种信息预测模块的构建方法、信息预测方法及相关设备,构建方法包括:以能获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;基于文本处理模块和预设的多种语音合成前端信息预测任务构建多任务处理模块;对多任务处理模块进行处理,以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力,处理后的模块作为构建的信息预测模块。经由本申请提供的构建方法可构建出同时对多种语音合成前端信息进行预测的模块。在构建方法的基础上,本申请还提供了可同时预测多种语音合成前端信息的信息预测方法,在此基础上,本申请还提供了可同时预测出较为准确的韵律词边界和调核位置的信息预测方法。
-
公开(公告)号:CN114283781A
公开(公告)日:2022-04-05
申请号:CN202111650035.6
申请日:2021-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法及相关装置、电子设备和存储介质,其中,语音合成方法包括:获取待合成文本、第一语音属性和第二语音属性;其中,第一语音属性包括情感类别、风格类别中至少一者,第二语音属性包括说话人标识;获取具有第一语音属性的全局韵律特征,并基于待合成文本、第一语音属性和第二语音属性进行预测,得到局部韵律特征;其中,全局韵律特征包含句子级韵律特征信息,局部韵律特征包含字词级韵律特征信息;基于待合成文本、全局韵律特征和局部韵律特征进行合成,得到合成语音。上述方案,能够自由合成不同韵律的语音,提升对不同场景的适应性。
-
公开(公告)号:CN117351937A
公开(公告)日:2024-01-05
申请号:CN202311382110.4
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:对目标语音进行特征提取,得到目标语音特征,目标语音特征中目标粗粒度语音特征和目标细粒度语音特征表征信息不同;基于目标语音、待合成文本以及目标语音特征,确定待合成语音特征,待合成语音特征包括待合成粗粒度语音特征和待合成细粒度语音特征;基于待合成语音特征,确定待合成文本对应的合成语音,通过粗细粒度两个层面上蕴含了丰富的发音和音色的待合成语音特征进行语音合成,能够有效提升语音合成的效果,克服了目前合成语音在音色和发音习惯上存在欠缺,语音合成效果不佳的缺陷,优化了合成语音在音色和发音习惯上的逼真度,保证了合成语音的真实自然。
-
公开(公告)号:CN116013247A
公开(公告)日:2023-04-25
申请号:CN202211731625.6
申请日:2022-12-30
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08
Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:获取待合成的文本,以及控制语音合成的目标情感强度;基于各预设情感档位的档位情感特征,确定所述目标情感强度下的全局情感特征;基于所述文本以及所述全局情感特征进行语音合成,克服了传统方案中合成语音缺乏情感或情感表达单一,缺失情感间的转变,以致合成语音的情感表达效果不佳的缺陷,通过全局情感特征控制语音合成,可以在情感空间上定位情感方向和情感强度,实现了合成语音在不同情感上的信息表达,以及在情感强度上的情感化表达,提升了合成语音的情感表现力,优化了表达效果。
-
公开(公告)号:CN119763584A
公开(公告)日:2025-04-04
申请号:CN202411954984.7
申请日:2024-12-27
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种角色音频匹配方法、装置、电子设备及存储介质,涉及数据处理技术领域,包括:获取待处理视听作品的视听作品数据,并根据所述视听作品数据中所述待处理视听作品各个角色的目标角色音频信息,获取各个角色的第一声纹表征;对所述视听作品数据进行单角色音频提取,得到多个单角色音频信息;基于各所述单角色音频信息对应的第二声纹表征,对多个所述单角色音频信息进行音频聚类,得到至少一个单角色音频信息集合;基于各个所述角色的目标角色音频信息与各个所述单角色音频信息集合的声纹表征相似性信息,确定每个所述角色匹配的单角色音频信息集合;其中,所述声纹表征相似性信息是根据所述第一声纹表征和所述第二声纹表征确定的。
-
公开(公告)号:CN119724148A
公开(公告)日:2025-03-28
申请号:CN202510224088.3
申请日:2025-02-27
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08 , G06F40/30 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/094
Abstract: 本申请公开了一种语音合成方法及相关装置、设备和存储介质,其中,语音合成方法包括:基于特征预测模型预测待合成字符序列的发音特征;其中,待合成字符序列为文本序列或音素序列,发音特征至少包含待合成字符序列与发音内容和发音韵律相关的特征信息;基于声学模型对发音特征和待合成字符序列的序列隐层特征进行预测,得到声学特征;其中,序列隐层特征为特征预测模型处理待合成字符序列过程中所得到的隐层特征;基于声码器对声学特征进行波形恢复,得到合成语音。上述方案,能够提升语音合成的稳定性和自然度。
-
公开(公告)号:CN112786004B
公开(公告)日:2024-05-31
申请号:CN202011615062.5
申请日:2020-12-30
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法以及电子设备、存储装置,其中,语音合成方法包括:获取待合成文本和待合成文本的目标情感类型,并获取目标情感类型的参考音频;基于参考音频关于韵律参数的数据分布情况,获取与目标情感类型对应的韵律特征;其中,韵律参数包括以下至少一种:基频、强度、时长;以及,对待合成文本的音素序列进行特征提取,得到待合成文本的音素特征;利用韵律特征和音素特征进行解码,得到待合成文本融入目标情感类型后的合成音频。上述方案,能够准确地在合成音频中融入情感。
-
-
-
-
-
-
-
-
-