-
公开(公告)号:CN119811363A
公开(公告)日:2025-04-11
申请号:CN202510304422.6
申请日:2025-03-14
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08 , G10L13/10 , G06F40/263 , G06F40/279 , G06F40/30 , G06N3/0455 , G06N3/088 , G06N3/094
Abstract: 本申请公开了一种语音合成方法、装置、设备和存储介质,该方法包括:获取待合成文本对应的音素序列;基于时长预测相关信息进行时长预测,得到待合成文本对应的目标时长信息,其中,时长预测相关信息包括参考语音的参考时长信息、待合成文本和音素序列;基于目标时长信息进行语音表征预测,得到目标细粒度语音表征;基于目标细粒度语音表征合成目标语音。上述方案,能够提升语音合成的效果。
-
公开(公告)号:CN119785759A
公开(公告)日:2025-04-08
申请号:CN202411940031.5
申请日:2024-12-26
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种音效生成方法及系统,该方法包括:获取目标文本数据;将所述目标文本数据输入至音效描述生成微调模型,得到由所述音效描述生成微调模型输出的所述目标文本数据中的目标音效内容描述信息对应的音效语音数据;其中,所述音效描述生成微调模型是基于第一训练数据集和第二训练数据集,依次对目标生成式大语言模型训练得到的;所述第一训练数据集中的音效内容描述标签对应的训练样本占比系数小于所述第二训练数据集中的所述音效内容描述标签对应的训练样本占比系数。本发明使得音效生成结果更为准确。
-
公开(公告)号:CN118411979B
公开(公告)日:2024-10-29
申请号:CN202410882124.0
申请日:2024-07-03
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种合成语音的调整方法、训练方法及相关装置。该方法包括:获取初始合成语音的属性调整文本,其中,属性调整文本用于表征对初始合成语音进行语音属性调整的属性差异;获取参考属性调整文本进行语音合成得到的调整后的合成语音。上述方案,能够实现对语音属性的调整,满足用户对于合成语音的个性化需求。
-
公开(公告)号:CN118782018A
公开(公告)日:2024-10-15
申请号:CN202310364777.5
申请日:2023-04-03
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音合成方法、装置、设备及存储介质,具体实现方案为:利用待处理文本的语义信息确定待处理文本的韵律信息;基于所述待处理文本的音素序列和所述韵律信息,确定所述待处理文本的特征向量;其中,所述待处理文本的特征向量包括:所述待处理文本的音素序列和所述韵律信息;利用所述特征向量合成目标语音、根据本申请的技术方案,能够有效提升增强合成语音的表现力。
-
公开(公告)号:CN118057521A
公开(公告)日:2024-05-21
申请号:CN202211449509.5
申请日:2022-11-18
Applicant: 科大讯飞股份有限公司
Abstract: 本公开提供了一种语音合成方法、装置、电子设备及存储介质,涉及语音合成技术领域。该方法包括获取待合成文本和与待合成文本对应的声音描述信息,声音描述信息用于示出与待合成文本对应的目标语音的语音属性;提取声音描述信息中的声音特征;根据待合成文本和声音特征,合成目标语音。本公开实施例能够基于声音描述信息,合成具有任意指定语音属性的语音,提升了语音合成的自由度。
-
公开(公告)号:CN115775554A
公开(公告)日:2023-03-10
申请号:CN202211521669.6
申请日:2022-11-30
Applicant: 科大讯飞股份有限公司
IPC: G10L13/08 , G10L13/02 , G06F40/289 , G06F16/33
Abstract: 本申请公开了一种多音字消歧方法、装置、存储介质及设备,该方法包括:首先获取包含目标多音字的目标文本,并对其进行分词处理,得到其包含目标多音字的目标分词,然后判断目标分词是否包含在预先构建的无歧义词典中,若是,则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本中目标多音字的发音;若否,则将目标文本输入预先构建的多音字消歧模型,预测得到目标多音字的发音。由于本申请是先根据字典中多音字语义和发音的对应关系构建了多音字消歧模型,并利用部分多音字在分词中的发音无歧义的特性构建了无歧义词典,从而在多音字消歧过程中,能够结合该多音字消歧模型、分词信息和无歧义词典,更为准确的确定出多音字的发音。
-
公开(公告)号:CN114005428A
公开(公告)日:2022-02-01
申请号:CN202111652808.4
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/033 , G10L13/10
Abstract: 本发明提供一种语音合成方法、装置、电子设备、存储介质和程序产品,所述语音合成方法包括:对第一用户的第一语音信息进行音色特征提取,生成第一音色特征;对目标语音信息进行风格特征提取,生成目标风格特征;对目标文本信息进行文本特征提取,生成目标文本编码;基于所述目标风格特征和所述目标文本编码,生成目标韵律特征;基于所述第一音色特征和所述目标韵律特征,生成所述第一语音信息对应的第一频谱特征;基于所述第一频谱特征和所述目标文本信息,生成所述第一用户对应的目标合成语音。本发明的语音合成方法,在实际使用过程中,无需进行训练且预测结果的准确度高,合成速率快且合成效果好,有助于提高用户的使用体验。
-
公开(公告)号:CN113129863A
公开(公告)日:2021-07-16
申请号:CN201911417701.4
申请日:2019-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音时长预测方法、装置、设备及可读存储介质,在获取文本数据后,利用预先训练好的时长预测模型对文本数据进行至少两个韵律层级的编码,得到至少两个韵律层级的编码特征序列;利用上述时长预测模型,根据上述至少两个韵律层级的编码特征序列,生成文本数据对应的语音时长序列,该方案在对文本数据进行编码时,进行了至少两个韵律层级的编码,从而可以对语音时长进行不同韵律层级的控制,基于该方法预测的语音时长进行语音合成时,降低了一字一顿现象出现的概率,使得合成语音的连续性更好。
-
公开(公告)号:CN112802444A
公开(公告)日:2021-05-14
申请号:CN202011607966.3
申请日:2020-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法、装置、设备及存储介质,本申请在对待合成的原始文本进行语音合成的过程中,参考了与原始文本存在相匹配的文本片段的匹配文本对应的辅助合成特征,该辅助合成特征为基于匹配文本对应的发音音频所确定的用于辅助语音合成的特征,本申请通过参考匹配文本对应的辅助合成特征,可以利用匹配文本对应的发音音频中发音信息辅助对原始文本进行语音合成,丰富了原始文本语音合成时所参考的信息,进而提高了原始文本的语音合成质量。本申请方案可以适用于带前端预处理和不带前端预处理两种类型的语音合成系统,辅助合成特征可以作为前端文本分析结果也可以直接辅助语音合成系统进行语音合成,均能够提高合成语音的质量。
-
公开(公告)号:CN112767957A
公开(公告)日:2021-05-07
申请号:CN202011627633.7
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种获得预测模型的方法、语音波形的预测方法、电子设备和计算机可读存储介质,所述获得预测模型的方法首先将样本语音波形划分为若干个样本子序列,并进行时延处理,然后构建初始预测模型,并依据若干个样本子序列和样本语音波形的声学参数训练初始预测模型,获得预测模型。其中,将若干个样本子序列中当前波形点的波形值同时输入上述预测模型,能够同时获得若干个样本子序列中下一波形点的预测波形值。因此,本申请能够减少预测生成语音波形的计算量,提高生成语音波形的效率,从而能够实现实时生成语音波形的目的,且实时生成语音波形时不容易发生卡顿。
-
-
-
-
-
-
-
-
-