-
公开(公告)号:CN112417896A
公开(公告)日:2021-02-26
申请号:CN202011210710.9
申请日:2020-11-03
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种领域数据获取方法、机器翻译方法及相关设备,领域数据获取方法可确定出通用领域的训练语料集中训练语料对应的第一目标值,由于第一目标值能够表征对应的训练语料与指定领域的匹配程度,因此,基于通用领域的训练语料集中训练语料对应的第一目标值,能够从通用领域的训练语料集中筛选出指定领域的训练语料。在此基础上,本申请还提供了一种机器翻译方法,该方法可利用预先建立的领域翻译模型实现指定领域文本的翻译,由于领域翻译模型采用大量指定领域的训练语料对通用翻译模型进行微调得到,因此,其为能够适应于指定领域的翻译模型,利用该翻译模型对指定领域的文本进行翻译,能够获得比较准确的翻译结果。
-
公开(公告)号:CN110298046A
公开(公告)日:2019-10-01
申请号:CN201910595220.6
申请日:2019-07-03
Applicant: 科大讯飞股份有限公司
IPC: G06F17/28
Abstract: 本申请公开了一种翻译模型训练方法、文本翻译方法及相关装置,在该方法中,将至少一个样本文本中输入双向翻译模型,以便根据双向翻译模型的输出结果对双向翻译模型进行参数更新,其中,双向翻译模型的输出结果包括每一样本文本的预测翻译文本以及每一样本文本对应的预测词袋,且该预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,该实际词袋包括对应样本文本的实际翻译文本中的各个不同词,因此,在对模型进行参数更新时,需要基于每一样本文本的预测词袋与其实际词袋之间的差异进行参数更新,使得该实际词袋可以用于指导翻译方向,故而,训练完成的双向翻译模型能够朝着输入样本文本的实际词袋的方向进行准确翻译。
-
公开(公告)号:CN119785760A
公开(公告)日:2025-04-08
申请号:CN202411955145.7
申请日:2024-12-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种语音合成方法、装置、设备、介质及产品,该方法包括:获取目标文本对应的音素序列和离散声学特征序列;并通过预先训练的声学模型根据音素序列和离散声学特征序列进行语音合成,得到目标文本对应的语音信号;其中,声学模型根据训练文本对应的音素序列和离散声学特征序列进行多阶段预测任务训练得到,多阶段预测任务包括离散声学特征序列预测任务和梅尔谱特征预测任务。本申请可以提高合成语音的质量。
-
公开(公告)号:CN119724148A
公开(公告)日:2025-03-28
申请号:CN202510224088.3
申请日:2025-02-27
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08 , G06F40/30 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/094
Abstract: 本申请公开了一种语音合成方法及相关装置、设备和存储介质,其中,语音合成方法包括:基于特征预测模型预测待合成字符序列的发音特征;其中,待合成字符序列为文本序列或音素序列,发音特征至少包含待合成字符序列与发音内容和发音韵律相关的特征信息;基于声学模型对发音特征和待合成字符序列的序列隐层特征进行预测,得到声学特征;其中,序列隐层特征为特征预测模型处理待合成字符序列过程中所得到的隐层特征;基于声码器对声学特征进行波形恢复,得到合成语音。上述方案,能够提升语音合成的稳定性和自然度。
-
公开(公告)号:CN118135995A
公开(公告)日:2024-06-04
申请号:CN202410125928.6
申请日:2024-01-29
Applicant: 科大讯飞股份有限公司
IPC: G10L13/10 , G10L13/08 , G10L13/027 , G06N3/0442 , G06N3/0455 , G06N3/08
Abstract: 本申请公开了一种语音合成方法、装置、设备和存储介质,语音合成方法包括:获取第一待合成文本的目标语音特征,目标语音特征表征有第一待合成文本对应的音素信息、韵律信息和副语言标签信息;利用目标语音特征进行语音合成,得到第一待合成文本对应的目标合成语音。通过上述方式,能够提高目标合成语音的拟人化效果。
-
公开(公告)号:CN112733552B
公开(公告)日:2024-04-12
申请号:CN202011605010.X
申请日:2020-12-30
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Inventor: 宋锐
IPC: G06F40/56
Abstract: 本发明公开了一种机器翻译模型构建方法、装置以及设备,本发明从机器翻译模型训练维度,对目标翻译模型的构建提出改进,具体是通过对多个不同结构参数的待定翻译模型进行训练,并记录当前最优的各待定翻译模型参数,同时结合各待定翻译模型的自身训练,利用当前最优模型对各待定翻译模型进行同步融合训练,经此训练方式便可以使得不同结构参数的待定翻译模型的知识进行交互,由此构建出的目标翻译模型在显著提高翻译质量的同时,更具有较强的鲁棒性。本发明在多个翻译模型的容量、计算效率和翻译效果之间进行均衡,使多个待定翻译模型能够实现在线混合学习,从而可以兼顾机器翻译模型在实际上线时对于翻译效果以及部署操作的双重需求。
-
公开(公告)号:CN113793591A
公开(公告)日:2021-12-14
申请号:CN202110768683.5
申请日:2021-07-07
Applicant: 科大讯飞股份有限公司
IPC: G10L13/08
Abstract: 本申请公开了一种语音合成方法及相关装置和电子设备、存储介质,其中,语音合成方法包括:获取待合成文本的待合成音素;利用语音合成模型对待合成音素进行合成处理,得到合成音频;其中,语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的,样本数据是利用发言对象的第一音频提取得到的,样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和融合音频频谱,且样本音素序列包括若干样本音素,样本音频频谱包含若干样本音频帧,样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。上述方案,能够提高语音合成质量。
-
公开(公告)号:CN119724147A
公开(公告)日:2025-03-28
申请号:CN202411951359.7
申请日:2024-12-27
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种音素对齐方法、系统、电子设备及存储介质,其中方法包括:将目标音频的初始音频特征和目标文本的初始音素特征输入至音素对齐模型中的特征提取模块,得到所述目标音频的目标音频特征和所述目标文本的目标音素特征;将所述目标音频特征和所述目标音素特征输入至所述音素对齐模型中的注意力模块,得到音素对齐矩阵;根据所述音素对齐矩阵,获取所述初始音频特征对应的音素序号标签预测值,并根据所述音素序号标签预测值,对所述目标音频和所述目标文本进行音素对齐处理。本发明实现通过特征精细化提取和注意力计算进行音素序号标签的稳定、精准预测,以有效提高音素对齐的鲁棒性和泛化性。
-
公开(公告)号:CN112750419B
公开(公告)日:2024-02-13
申请号:CN202011623477.7
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:确定待合成文本;将待合成文本输入至语音合成模型中,得到合成结果;语音合成模型是在用于提取文本特征的语言模型的基础上,通过样本文本及其对应的样本语音,联合基于文本特征的说话人识别模型对抗训练得到的。本发明提供的方法、装置、电子设备和存储介质,依赖于语言模型强大的文本理解能力,保证语音合成过程中对于韵律、音素层面信息预测的合理性,从而保证语音合成结果的可靠性和准确性,无需前端模块的加入,节省了大量的人力时间,尤其是在多语种的语音合成场景下,无需另外获取各语种的前端模块,极大降低了语音合成任务的实现难度,有助于语音合成应用的推广。
-
公开(公告)号:CN110298046B
公开(公告)日:2023-04-07
申请号:CN201910595220.6
申请日:2019-07-03
Applicant: 科大讯飞股份有限公司
IPC: G06F40/47
Abstract: 本申请公开了一种翻译模型训练方法、文本翻译方法及相关装置,在该方法中,将至少一个样本文本中输入双向翻译模型,以便根据双向翻译模型的输出结果对双向翻译模型进行参数更新,其中,双向翻译模型的输出结果包括每一样本文本的预测翻译文本以及每一样本文本对应的预测词袋,且该预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,该实际词袋包括对应样本文本的实际翻译文本中的各个不同词,因此,在对模型进行参数更新时,需要基于每一样本文本的预测词袋与其实际词袋之间的差异进行参数更新,使得该实际词袋可以用于指导翻译方向,故而,训练完成的双向翻译模型能够朝着输入样本文本的实际词袋的方向进行准确翻译。
-
-
-
-
-
-
-
-
-