用于语音合成的音子切分方法和装置

    公开(公告)号:CN105336321B

    公开(公告)日:2016-10-19

    申请号:CN201510623958.0

    申请日:2015-09-25

    Inventor: 张辉 李秀林

    Abstract: 本发明公开了一种用于语音合成的音子切分方法和装置,其中,用于语音合成的音子切分方法,包括:获取语料文本,并将语料文本转换为拼音序列,其中拼音序列包括多个音子,每个音子具有多个状态;将拼音序列对应的语音数据切分为多个语音帧,并获取语音帧的声学特征;针对每个状态,根据声学特征对语音帧进行聚类,并生成状态对应的多个节点;以及基于动态规划算法和二维状态网络计算出拼音序列对应的最优路径,并根据最优路径切分拼音序列。本发明实施例的用于语音合成的音子切分方法和装置,提高了切分拼音序列的准确性,进而提高了语音合成的声学模型可靠性,最终使文语转换的语音更加流畅自然。

    多音字模型训练方法、语音合成方法及装置

    公开(公告)号:CN105336322B

    公开(公告)日:2017-05-10

    申请号:CN201510641654.7

    申请日:2015-09-30

    Abstract: 本发明公开了一种用于语音合成的多音字模型训练方法、语音合成方法及装置,其中,该方法包括:对语音数据集合和文本集合进行处理,以生成训练语料集合,其中,文本集合与语音数据集合对应,训练语料集合包括文本和与文本对应的拼音序列;提取文本的特征信息;以及根据特征信息和拼音序列对多音字模型进行训练。上述用于语音合成的多音字模型训练方法,在训练多音字模型的过程中,无需人工对文本的拼音进行标注,大大减少了多音字模型的训练周期,同时,避免了由人工标注错误而造成训练的多音字模型不准确情况的发生,提高了所训练的多音字模型的准确性。

    韵律层级预测模型的生成及韵律层级预测方法和装置

    公开(公告)号:CN105185373A

    公开(公告)日:2015-12-23

    申请号:CN201510477652.9

    申请日:2015-08-06

    Abstract: 本发明提出一种韵律层级预测模型的生成及韵律层级预测方法和装置,该韵律层级预测模型的生成方法包括:根据精标数据集生成初始的韵律层级预测模型;收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置;根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。该方法能够提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。

    用于波形拼接语音合成的选音方法和装置

    公开(公告)号:CN105719641B

    公开(公告)日:2019-07-30

    申请号:CN201610035220.7

    申请日:2016-01-19

    Inventor: 张辉 李秀林

    Abstract: 本发明提出一种用于波形拼接语音合成的选音方法和装置,该用于波形拼接语音合成的选音方法包括:获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的;获取预先生成的机器学习模型;根据所述标注信息和所述机器学习模型进行机器学习预选,得到候选音子波形片断。该方法能够提高语音合成时的预选效果。

    韵律层级预测模型的生成及韵律层级预测方法和装置

    公开(公告)号:CN105185373B

    公开(公告)日:2017-04-05

    申请号:CN201510477652.9

    申请日:2015-08-06

    Abstract: 本发明提出一种韵律层级预测模型的生成及韵律层级预测方法和装置,该韵律层级预测模型的生成方法包括:根据精标数据集生成初始的韵律层级预测模型;收集语音及对应的文本数据,检测语音中的特征信息,并将所述特征信息加入文本数据的对应位置;根据所述初始的韵律层级预测模型,对加入特征信息的文本数据进行韵律层级预测,得到初始的韵律层级预测结果;根据所述精标数据集和所述初始的韵律层级预测结果进行训练,生成更新后的韵律层级预测模型,所述更新后的韵律层级预测模型用于语音合成时的韵律层级预测。该方法能够提高生成的韵律层级预测模型的准确性,进而提高韵律层级预测的准确性,提高语言合成效果。

    多音字模型训练方法、语音合成方法及装置

    公开(公告)号:CN105336322A

    公开(公告)日:2016-02-17

    申请号:CN201510641654.7

    申请日:2015-09-30

    CPC classification number: G10L13/08

    Abstract: 本发明公开了一种用于语音合成的多音字模型训练方法、语音合成方法及装置,其中,该方法包括:对语音数据集合和文本集合进行处理,以生成训练语料集合,其中,文本集合与语音数据集合对应,训练语料集合包括文本和与文本对应的拼音序列;提取文本的特征信息;以及根据特征信息和拼音序列对多音字模型进行训练。上述用于语音合成的多音字模型训练方法,在训练多音字模型的过程中,无需人工对文本的拼音进行标注,大大减少了多音字模型的训练周期,同时,避免了由人工标注错误而造成训练的多音字模型不准确情况的发生,提高了所训练的多音字模型的准确性。

    用于语音合成的音子切分方法和装置

    公开(公告)号:CN105336321A

    公开(公告)日:2016-02-17

    申请号:CN201510623958.0

    申请日:2015-09-25

    Inventor: 张辉 李秀林

    CPC classification number: G10L13/08

    Abstract: 本发明公开了一种用于语音合成的音子切分方法和装置,其中,用于语音合成的音子切分方法,包括:获取语料文本,并将语料文本转换为拼音序列,其中拼音序列包括多个音子,每个音子具有多个状态;将拼音序列对应的语音数据切分为多个语音帧,并获取语音帧的声学特征;针对每个状态,根据声学特征对语音帧进行聚类,并生成状态对应的多个节点;以及基于动态规划算法和二维状态网络计算出拼音序列对应的最优路径,并根据最优路径切分拼音序列。本发明实施例的用于语音合成的音子切分方法和装置,提高了切分拼音序列的准确性,进而提高了语音合成的声学模型可靠性,最终使文语转换的语音更加流畅自然。

Patent Agency Ranking