Patent search ap:("百度在线网络技术(北京)有限公司") AND inv:"王振宇" Page 1

1.

发明公开
语音合成语料库的构建方法、装置及设备有权

公开(公告)号：CN110265028A

公开(公告)日：2019-09-20

申请号：CN201910534880.3

申请日：2019-06-20

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 侯建康 , 李昊 , 王振宇 , 李飞亚

IPC: G10L15/26 , G10L15/22 , G10L13/10 , G10L13/08

Abstract: 本发明实施例提供的语音合成语料库的构建方法、装置及设备，通过对干声语音进行语音处理，得到干声语音对应的纯净语音；将纯净语音识别为文本后，将纯净语音和文本输入至韵律转换工具中，获取纯净语音的韵律信息，将纯净语音和韵律信息作为训练语料，加入语料库中。由于干声语音获取成本较低，且可以在短时间内大量获得，降低了构建语料库的时间成本和人力成本；通过采用韵律转换工具对纯净语音和文本进行韵律转换，得到纯净语音对应的韵律信息，从而无需人工标注过程，进一步降低了构建语料库的时间成本和人力成本。

2.

发明公开
语音合成方法、装置、设备及计算机可读存储介质有权

公开(公告)号：CN110264993A

公开(公告)日：2019-09-20

申请号：CN201910569831.3

申请日：2019-06-27

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 王振宇 , 李昊 , 侯建康 , 李飞亚

IPC: G10L13/08 , G10L13/10

Abstract: 本发明提供一种语音合成方法、装置、设备及计算机可读存储介质。本发明的方法，通过根据输入文本的音素序列和音素特征，确定输入文本的音节单元，以及音节单元的音节特征，通过获取音节单元的特征，能够在音节粒度上更好地捕获输入文本的韵律变化特征；然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长，根据输入文本的原始音素的时长，将输入文本的原始音素扩充为帧序列单元，确定输入文本的帧序列和帧特征；根据输入文本的帧特征，确定输入文本的声学参数，并进行语音合成，能够将在音节粒度上捕获的韵律变化特征传递给底层音素，能够更好地捕获上下文特征，提高语音合成的自然度，提高语音合成的质量。

3.

发明授权
语音合成方法和装置有权

公开(公告)号：CN108597492B

公开(公告)日：2019-11-26

申请号：CN201810410481.1

申请日：2018-05-02

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李昊 , 康永国 , 王振宇

IPC: G10L13/10 , G10L13/08 , G10L13/04 , G10L25/30

Abstract: 本发明实施例提供一种语音合成方法和装置。该方法包括：获取待处理文本的音素特征和韵律及情感特征，根据音素特征和韵律及情感特征，采用预先训练的时长模型，确定待处理文本的语音时长，所述时长模型基于卷积神经网络训练得到，根据音素特征、韵律及情感特征和语音时长，采用预先训练的声学参数模型，确定待处理文本的声学特征参数，所述声学参数模型基于卷积神经网络训练得到，根据声学特征参数，合成待处理文本的语音。本发明实施例的方法，能够在满足实时性要求的前提下，提供音质更高，更加具有情感表现力，更加自然流畅的合成语音。

4.

发明公开
用于合成语音的方法和装置有权

公开(公告)号：CN110197655A

公开(公告)日：2019-09-03

申请号：CN201910579495.0

申请日：2019-06-28

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李飞亚 , 李昊 , 王振宇 , 侯建康

IPC: G10L13/02 , G10L13/08

Abstract: 本申请实施例公开了用于合成语音的方法和装置。该方法的一具体实施方式包括：接收语音合成请求，其中，语音合成请求包括语音合成文本和方言标识；按照方言标识所指示的方言的方言发音特征，将语音合成文本转换成方言语音；输出方言语音。该实施方式提高了语音合成所生成的语音的多样性。

5.

发明公开
语音合成方法和装置有权

公开(公告)号：CN108597492A

公开(公告)日：2018-09-28

申请号：CN201810410481.1

申请日：2018-05-02

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李昊 , 康永国 , 王振宇

IPC: G10L13/10 , G10L13/08 , G10L13/04 , G10L25/30

Abstract: 本发明实施例提供一种语音合成方法和装置。该方法包括：获取待处理文本的音素特征和韵律及情感特征，根据音素特征和韵律及情感特征，采用预先训练的时长模型，确定待处理文本的语音时长，所述时长模型基于卷积神经网络训练得到，根据音素特征、韵律及情感特征和语音时长，采用预先训练的声学参数模型，确定待处理文本的声学特征参数，所述声学参数模型基于卷积神经网络训练得到，根据声学特征参数，合成待处理文本的语音。本发明实施例的方法，能够在满足实时性要求的前提下，提供音质更高，更加具有情感表现力，更加自然流畅的合成语音。

6.

发明授权
语音合成方法、装置、设备及计算机可读存储介质有权

公开(公告)号：CN110264993B

公开(公告)日：2020-10-09

申请号：CN201910569831.3

申请日：2019-06-27

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 王振宇 , 李昊 , 侯建康 , 李飞亚

IPC: G10L13/08 , G10L13/10

Abstract: 本发明提供一种语音合成方法、装置、设备及计算机可读存储介质。本发明的方法，通过根据输入文本的音素序列和音素特征，确定输入文本的音节单元，以及音节单元的音节特征，通过获取音节单元的特征，能够在音节粒度上更好地捕获输入文本的韵律变化特征；然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长，根据输入文本的原始音素的时长，将输入文本的原始音素扩充为帧序列单元，确定输入文本的帧序列和帧特征；根据输入文本的帧特征，确定输入文本的声学参数，并进行语音合成，能够将在音节粒度上捕获的韵律变化特征传递给底层音素，能够更好地捕获上下文特征，提高语音合成的自然度，提高语音合成的质量。

7.

发明授权
语音合成语料库的构建方法、装置及设备有权

公开(公告)号：CN110265028B

公开(公告)日：2020-10-09

申请号：CN201910534880.3

申请日：2019-06-20

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 侯建康 , 李昊 , 王振宇 , 李飞亚

IPC: G10L15/26 , G10L15/22 , G10L13/10 , G10L13/08

Abstract: 本发明实施例提供的语音合成语料库的构建方法、装置及设备，通过对干声语音进行语音处理，得到干声语音对应的纯净语音；将纯净语音识别为文本后，将纯净语音和文本输入至韵律转换工具中，获取纯净语音的韵律信息，将纯净语音和韵律信息作为训练语料，加入语料库中。由于干声语音获取成本较低，且可以在短时间内大量获得，降低了构建语料库的时间成本和人力成本；通过采用韵律转换工具对纯净语音和文本进行韵律转换，得到纯净语音对应的韵律信息，从而无需人工标注过程，进一步降低了构建语料库的时间成本和人力成本。

8.

发明授权
用于合成语音的方法和装置有权

公开(公告)号：CN110197655B

公开(公告)日：2020-12-04

申请号：CN201910579495.0

申请日：2019-06-28

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李飞亚 , 李昊 , 王振宇 , 侯建康

IPC: G10L13/02 , G10L13/08

Abstract: 本申请实施例公开了用于合成语音的方法和装置。该方法的一具体实施方式包括：接收语音合成请求，其中，语音合成请求包括语音合成文本和方言标识；按照方言标识所指示的方言的方言发音特征，将语音合成文本转换成方言语音；输出方言语音。该实施方式提高了语音合成所生成的语音的多样性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification