-
公开(公告)号:CN118658449A
公开(公告)日:2024-09-17
申请号:CN202410156764.3
申请日:2024-02-02
申请人: 马上消费金融股份有限公司
发明人: 刘鹏飞
摘要: 本申请涉及一种语音合成方法及相关产品。所述方法包括:获取具有目标音频风格的参考音频,以及获取待合成文本的音素编码特征;基于所述音素编码特征预测所述待合成文本的音频属性特征;对所述参考音频进行特征提取,得到所述参考音频的离散特征,并基于所述离散特征进行语音风格确定,得到风格编码特征;根据所述音频属性特征和所述风格编码特征进行解码处理,得到所述待合成文本的合成语音,所述合成语音具有目标音频风格。采用本方法能够提供语音合成质量。
-
公开(公告)号:CN117496939A
公开(公告)日:2024-02-02
申请号:CN202310458770.X
申请日:2023-04-25
申请人: 马上消费金融股份有限公司
IPC分类号: G10L13/02 , G10L13/027 , G10L13/08
摘要: 本申请实施例公开了一种语音合成模型的训练方法、语音合成方法及装置。语音合成模型的训练方法包括:获取第一样本文本以及第一样本文本对应的样本音频数据;将第一样本文本和样本音频数据输入待训练的语音合成模型;待训练的语音合成模型包括预训练的语言处理模型和音频生成模块;通过预训练的语言处理模型,提取第一样本文本对应的文本特征信息;文本特征信息包括每个第一语言单位对应的语义特征信息以及各第一语言单位之间的语义关联特征信息;通过音频生成模块,根据文本特征信息确定第一样本文本对应的预测音频数据,并根据预测音频数据和样本音频数据对语音合成模型进行训练。本申请能够提升语音合成模型的模型性能。
-
公开(公告)号:CN114582317B
公开(公告)日:2023-08-08
申请号:CN202210319541.5
申请日:2022-03-29
申请人: 马上消费金融股份有限公司
IPC分类号: G10L13/08 , G10L13/10 , G10L13/047 , G10L25/24 , G10L25/30
摘要: 本申请公开了一种语音合成方法、声学模型的训练方法及装置。所述合成方法包括:基于待合成文本的音素序列,得到待合成文本的音素特征向量;将音素特征向量输入声学模型,得到待合成文本对应的合成语音;声学模型包括编码器和合成网络;编码器包括融合层和n级串联的子编码器,第一级子编码器用于对音素特征向量进行编码,得到对应的编码序列,除第一级子编码器之外的其余各级子编码器用于对音素特征向量和前面各级子编码得到的编码序列进行编码,得到对应的编码序列,融合层用于对音素特征向量和每级子编码器得到的编码序列进行融合处理,得到音素编码序列;合成网络用于根据目标可变声学特征和音素编码序列进行语音合成处理,得到合成语音。
-
公开(公告)号:CN116129876A
公开(公告)日:2023-05-16
申请号:CN202210956115.2
申请日:2022-08-10
申请人: 马上消费金融股份有限公司
摘要: 本公开提供了一种语音转化模型的训练方法和装置及语音生成方法和装置。所述训练方法包括:获取第一训练数据,其中,第一训练数据包括语音数据、与所述语音数据对应的音素数据和与所述语音数据对应的标准梅尔谱图;将所述语音数据输入到预训练的说话人识别模型得到与所述语音数据对应的说话人嵌入,其中,所述说话人嵌入用于表示说话人的音色;以及基于所述音素数据、所述标准梅尔谱图和所述说话人嵌入对初始语音转化模型进行训练,得到所述语音转化模型,所述语音转化模型用于将文本转化为语音的梅尔谱图。
-
公开(公告)号:CN116129853A
公开(公告)日:2023-05-16
申请号:CN202211128018.0
申请日:2022-09-16
申请人: 马上消费金融股份有限公司
摘要: 本申请提供了一种语音合成模型的训练方法、语音合成方法及相关设备,通过获取训练数据,训练数据包括目标语音和目标语音对应的音素序列;对目标语音进行预处理,确定目标梅尔频谱;以及将音素序列输入语音合成模型中进行合成处理,得到预测梅尔频谱;按照目标语音的声音规则分别对目标梅尔频谱和预测梅尔频谱进行切分和组对处理,得到N个频谱片段对;利用对抗判别模型中的N个判别器,分别基于N个频谱片段对,对语音合成模型进行对抗生成训练,训练完成的语音合成模型用于将待合成文本合成为合成语音。解决了读音模糊和过于平滑的技术问题。达到了合成语音吐字清晰、发音更自然、节奏和韵律感更好且更接近真人声音的技术效果。
-
公开(公告)号:CN114582317A
公开(公告)日:2022-06-03
申请号:CN202210319541.5
申请日:2022-03-29
申请人: 马上消费金融股份有限公司
IPC分类号: G10L13/08 , G10L13/10 , G10L13/047 , G10L25/24 , G10L25/30
摘要: 本申请公开了一种语音合成方法、声学模型的训练方法及装置。所述合成方法包括:基于待合成文本的音素序列,得到待合成文本的音素特征向量;将音素特征向量输入声学模型,得到待合成文本对应的合成语音;声学模型包括编码器和合成网络;编码器包括融合层和n级串联的子编码器,第一级子编码器用于对音素特征向量进行编码,得到对应的编码序列,除第一级子编码器之外的其余各级子编码器用于对音素特征向量和前面各级子编码得到的编码序列进行编码,得到对应的编码序列,融合层用于对音素特征向量和每级子编码器得到的编码序列进行融合处理,得到音素编码序列;合成网络用于根据目标可变声学特征和音素编码序列进行语音合成处理,得到合成语音。
-
公开(公告)号:CN111508466A
公开(公告)日:2020-08-07
申请号:CN201910868220.9
申请日:2019-09-12
申请人: 马上消费金融股份有限公司
摘要: 本发明公开了一种文本处理方法、装置、设备及计算机可读存储介质,涉及通信技术领域,以解决在将文本转化为语音的过程中,语音合成速度慢且复杂的问题。该方法包括:获取待处理文本;将所述待处理文本分割成变量文本和固定话术文本;获取所述固定话术文本对应的固定话术语音,以及利用神经网络语音合成模型获取所述变量文本对应的变量语音;将所述变量语音和所述固定话术语音进行拼接合成,得到所述待处理文本对应的语音数据。本发明实施例可提高语音合成速度并降低语音合成的复杂度。
-
公开(公告)号:CN116129867A
公开(公告)日:2023-05-16
申请号:CN202211008537.3
申请日:2022-08-22
申请人: 马上消费金融股份有限公司
摘要: 本申请公开了一种语音合成方法、装置、电子设备及存储介质,方法包括:获取目标说话人的说话人嵌入式特征以及待合成文本对应的音素序列;将所述音素序列输入至语音合成模型进行编码处理,得到音素编码特征;通过仿射变换网络对所述说话人嵌入式特征进行仿射变换,得到所述目标说话人的第一说话特征向量和所述目标说话人的第二说话特征向量,并将所述第一说话特征向量、所述第二说话特征向量以及所述音素编码特征进行融合处理;通过所述语音合成模型基于所述融合处理后的特征进行语音合成处理,得到所述待合成文本对应的合成语音,所述合成语音的音色与所述目标说话人相匹配。
-
公开(公告)号:CN116129863A
公开(公告)日:2023-05-16
申请号:CN202211486191.8
申请日:2022-11-24
申请人: 马上消费金融股份有限公司
摘要: 本申请提供了一种语音合成模型的训练方法、语音合成方法及相关装置,包括:获取训练样本数据的样本音素序列和声学特征标签;通过编码器对样本音素序列进行编码处理,得到第一样本音素编码特征;将声学特征标签输入参考编码器进行特征提取,得到词级别的语音特征标签,并对语音特征标签进行特征提取,得到语音特征标签向量;将第一样本音素编码特征和语音特征标签向量进行特征融合,得到第一样本韵律融合特征;通过解码器对第一样本韵律融合特征进行解码处理,得到样本声学特征;利用第一损失函数计算样本声学特征与声学特征标签之间的第一损失值,并基于第一损失值训练语音合成模型。本申请能够生成更拟人、更富有情感的语音合成结果。
-
公开(公告)号:CN116129862A
公开(公告)日:2023-05-16
申请号:CN202211485491.4
申请日:2022-11-24
申请人: 马上消费金融股份有限公司
摘要: 本申请提供了一种语音合成方法、装置、电子设备及存储介质,该方法包括:获取待合成文本的音素序列和待合成说话者的语音特征;将音素序列输入语音合成模型的编码器进行编码处理,获取音素编码特征,以及分别将语音特征和待合成文本输入风格预测器,得到语音风格预测结果和文本风格预测结果;将语音风格预测结果与文本风格预测结果进行特征融合,获取风格特征向量;将风格特征向量和音素编码特征进行融合并根据融合后的特征向量进行韵律预测,以获取韵律表征向量;将韵律表征向量和音素编码特征进行融合并根据融合结果进行语音合成,得到待合成文本对应的具有待合成说话者的风格的合成语音。本申请能够生成更逼近待合成说话人风格的合成语音。
-
-
-
-
-
-
-
-
-