-
公开(公告)号:CN116129851A
公开(公告)日:2023-05-16
申请号:CN202210851638.0
申请日:2022-07-20
申请人: 马上消费金融股份有限公司
IPC分类号: G10L13/02 , G10L13/033
摘要: 本申请公开了一种数据处理方法、语音合成模型训练方法及装置,用以解决目前语音合成的准确度低的问题。包括:对待处理的文本数据进行拆分处理,得到第一音素字符和第一音调字符;根据预设的字符和字符标识之间的第一映射关系,确定每个第一音素字符对应的音素字符标识,根据音素字符标识确定第一音素字符对应的音素标识序列;以及确定每个第一音调字符对应的音调字符标识,根据音调字符标识确定第一音调字符对应的音调标识序列;将音素标识序列和音调标识序列输入预先训练的语音合成模型中,进行语音合成处理,得到文本数据对应的目标语音数据。该技术方案提升了合成的语音数据的准确度。
-
公开(公告)号:CN114267321A
公开(公告)日:2022-04-01
申请号:CN202111544917.4
申请日:2021-12-16
申请人: 马上消费金融股份有限公司
摘要: 本发明实施例提供了一种语音合成方法、装置及电子设备,该方法包括:从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句,从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句;将选取的待合成短句和上下文短句,以及与所述待合成短句对应的参考语音输入到预设的语音合成模型,输出得到所述待合成短句的语音片段;根据各待合成短句的语音片段得到所述输入文本的语音文件。通过本发明实施例,在基于分段处理提高了语音合成效率的情况下,通过嵌入参考语音和上下文短句的特征信息,保证了合成语音中各语音片段的韵律关系,以及语言风格的一致性,提升了语音合成的效果,更接近真实语音。
-
公开(公告)号:CN117953862A
公开(公告)日:2024-04-30
申请号:CN202311316824.5
申请日:2023-10-11
申请人: 马上消费金融股份有限公司
发明人: 刘鹏飞
摘要: 本申请公开了一种语音合成模型的训练方法、语音合成方法及相关设备。所述语音合成模型的训练方法包括:获取样本文本和样本文本的标注数据,标注数据包括音素序列、真实语音数据和说话人信息;基于语音合成模型的音素编码模块对音素序列进行编码,得到音素特征向量;基于语音合成模型的韵律编码模块对说话人信息、样本文本和音素特征向量进行韵律预测,得到预测韵律数据;基于语音合成模型的合成模块对预测韵律数据进行语音合成处理,得到样本文本对应的合成语音数据;基于合成语音数据和真实语音数据,对语音合成模型进行优化训练。
-
公开(公告)号:CN117953858A
公开(公告)日:2024-04-30
申请号:CN202311245714.4
申请日:2023-09-25
申请人: 马上消费金融股份有限公司
发明人: 刘鹏飞
IPC分类号: G10L13/033 , G10L13/08
摘要: 本申请实施例公开了一种语音处理方法、装置、电子设备及存储介质。所述方法包括:将待处理的目标音素数据和说话人的说话风格信息输入语音处理模型,提取所述目标音素数据的初始音素特征信息;根据所述初始音素特征信息和所述说话风格信息,提取所述目标音素数据的目标特征信息;所述目标特征信息包括与所述说话人相匹配的语速特征信息、音调特征信息、音高特征信息和情感特征信息中的至少一项;根据所述目标特征信息和所述初始音素特征信息对所述目标音素数据进行语音合成,得到目标音素数据的目标音频数据。本申请能够提升语音合成的韵律感和个性化。
-
公开(公告)号:CN117496945A
公开(公告)日:2024-02-02
申请号:CN202310889808.9
申请日:2023-07-19
申请人: 马上消费金融股份有限公司
摘要: 本申请实施例公开了一种语音合成模型的训练方法、语音处理方法及装置。所述语音合成模型的训练方法包括:将样本数据输入待训练的语音合成模型处理得到预测音频数据,根据预测音频数据和标准音频数据对语音合成模型进行训练。其中,对样本数据的处理包括:提取样本音素数据的音素特征信息和样本段落文本数据的段落文本特征信息;根据音素特征信息和段落文本特征信息确定样本音素数据的目标特征信息,目标特征信息包括音素特征信息、段落文本特征信息以及样本音素数据和样本段落文本数据之间的相关性特征信息;根据目标特征信息对样本音素数据进行语音合成,得到样本音素数据的预测音频数据。本申请能够提升段落文本的语音合成效果以及合成效率。
-
公开(公告)号:CN114613353B
公开(公告)日:2023-08-08
申请号:CN202210307720.7
申请日:2022-03-25
申请人: 马上消费金融股份有限公司
摘要: 本申请公开语音合成方法、装置、电子设备及存储介质,获取目标文本的第一特征矩阵,第一特征矩阵包括每个词语的音素和每个词语的多种类型的第一声学特征,第一声学特征用于表征根据文本内容确定的词语对应音素发音。获取每个词语对应音素的第一声学特征和目标文本中其他词语的第一声学特征间的第一关联程度及每个词语对应音素的各种类型的第一声学特征间的第二关联程度。通过第一关联程度和第二关联程度可量化一个词语对应音素的发音受到其他词语对应音素的影响,及每个词语对应音素的一种类型的第一声学特征受到其他类型的影响,通过对各个词语对应音素及各种类型声学特征的处理可使合成语音前后词语的发音衔接更加流畅、具有韵律感。
-
公开(公告)号:CN116129852A
公开(公告)日:2023-05-16
申请号:CN202211074995.7
申请日:2022-09-02
申请人: 马上消费金融股份有限公司
摘要: 本申请提供了一种语音合成模型的训练方法、语音合成方法及相关设备,其中方法包括:获取目标语音及音素序列;对目标语音进行预处理得到目标梅尔频谱,并将该目标梅尔频谱输入语音转换模型中得到目标说话人向量;将音素序列以及目标说话人向量输入初始的语音合成模型中进行合成处理,得到预测梅尔频谱,并将预测梅尔频谱输入语音转换模型中,确定预测说话人向量;基于目标说话人向量和预测说话人向量之间的差异,以及目标梅尔频谱和预测梅尔频谱之间的差异,来训练语音合成模型。采用本申请利用目标说话人向量来增加说话人特征信息,可提高语音合成质量。
-
-
-
-
-
-