语音合成语料库的构建方法、装置及设备

    公开(公告)号:CN110265028A

    公开(公告)日:2019-09-20

    申请号:CN201910534880.3

    申请日:2019-06-20

    Abstract: 本发明实施例提供的语音合成语料库的构建方法、装置及设备,通过对干声语音进行语音处理,得到干声语音对应的纯净语音;将纯净语音识别为文本后,将纯净语音和文本输入至韵律转换工具中,获取纯净语音的韵律信息,将纯净语音和韵律信息作为训练语料,加入语料库中。由于干声语音获取成本较低,且可以在短时间内大量获得,降低了构建语料库的时间成本和人力成本;通过采用韵律转换工具对纯净语音和文本进行韵律转换,得到纯净语音对应的韵律信息,从而无需人工标注过程,进一步降低了构建语料库的时间成本和人力成本。

    语音合成方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN110264993A

    公开(公告)日:2019-09-20

    申请号:CN201910569831.3

    申请日:2019-06-27

    Abstract: 本发明提供一种语音合成方法、装置、设备及计算机可读存储介质。本发明的方法,通过根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征;根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。

    语音合成方法和装置
    3.
    发明授权

    公开(公告)号:CN108597492B

    公开(公告)日:2019-11-26

    申请号:CN201810410481.1

    申请日:2018-05-02

    Abstract: 本发明实施例提供一种语音合成方法和装置。该方法包括:获取待处理文本的音素特征和韵律及情感特征,根据音素特征和韵律及情感特征,采用预先训练的时长模型,确定待处理文本的语音时长,所述时长模型基于卷积神经网络训练得到,根据音素特征、韵律及情感特征和语音时长,采用预先训练的声学参数模型,确定待处理文本的声学特征参数,所述声学参数模型基于卷积神经网络训练得到,根据声学特征参数,合成待处理文本的语音。本发明实施例的方法,能够在满足实时性要求的前提下,提供音质更高,更加具有情感表现力,更加自然流畅的合成语音。

    语音合成方法和装置
    5.
    发明公开

    公开(公告)号:CN108597492A

    公开(公告)日:2018-09-28

    申请号:CN201810410481.1

    申请日:2018-05-02

    Abstract: 本发明实施例提供一种语音合成方法和装置。该方法包括:获取待处理文本的音素特征和韵律及情感特征,根据音素特征和韵律及情感特征,采用预先训练的时长模型,确定待处理文本的语音时长,所述时长模型基于卷积神经网络训练得到,根据音素特征、韵律及情感特征和语音时长,采用预先训练的声学参数模型,确定待处理文本的声学特征参数,所述声学参数模型基于卷积神经网络训练得到,根据声学特征参数,合成待处理文本的语音。本发明实施例的方法,能够在满足实时性要求的前提下,提供音质更高,更加具有情感表现力,更加自然流畅的合成语音。

    语音合成方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN110264993B

    公开(公告)日:2020-10-09

    申请号:CN201910569831.3

    申请日:2019-06-27

    Abstract: 本发明提供一种语音合成方法、装置、设备及计算机可读存储介质。本发明的方法,通过根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征;根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。

    语音合成语料库的构建方法、装置及设备

    公开(公告)号:CN110265028B

    公开(公告)日:2020-10-09

    申请号:CN201910534880.3

    申请日:2019-06-20

    Abstract: 本发明实施例提供的语音合成语料库的构建方法、装置及设备,通过对干声语音进行语音处理,得到干声语音对应的纯净语音;将纯净语音识别为文本后,将纯净语音和文本输入至韵律转换工具中,获取纯净语音的韵律信息,将纯净语音和韵律信息作为训练语料,加入语料库中。由于干声语音获取成本较低,且可以在短时间内大量获得,降低了构建语料库的时间成本和人力成本;通过采用韵律转换工具对纯净语音和文本进行韵律转换,得到纯净语音对应的韵律信息,从而无需人工标注过程,进一步降低了构建语料库的时间成本和人力成本。

Patent Agency Ranking