Patent search ap:("百度在线网络技术(北京)有限公司") AND inv:"李昊" Page 2

11.

发明公开
语音合成方法和装置有权

公开(公告)号：CN108597492A

公开(公告)日：2018-09-28

申请号：CN201810410481.1

申请日：2018-05-02

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李昊 , 康永国 , 王振宇

IPC: G10L13/10 , G10L13/08 , G10L13/04 , G10L25/30

Abstract: 本发明实施例提供一种语音合成方法和装置。该方法包括：获取待处理文本的音素特征和韵律及情感特征，根据音素特征和韵律及情感特征，采用预先训练的时长模型，确定待处理文本的语音时长，所述时长模型基于卷积神经网络训练得到，根据音素特征、韵律及情感特征和语音时长，采用预先训练的声学参数模型，确定待处理文本的声学特征参数，所述声学参数模型基于卷积神经网络训练得到，根据声学特征参数，合成待处理文本的语音。本发明实施例的方法，能够在满足实时性要求的前提下，提供音质更高，更加具有情感表现力，更加自然流畅的合成语音。

12.

发明授权
语音合成方法、装置、设备及计算机可读存储介质有权

公开(公告)号：CN110264993B

公开(公告)日：2020-10-09

申请号：CN201910569831.3

申请日：2019-06-27

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 王振宇 , 李昊 , 侯建康 , 李飞亚

IPC: G10L13/08 , G10L13/10

Abstract: 本发明提供一种语音合成方法、装置、设备及计算机可读存储介质。本发明的方法，通过根据输入文本的音素序列和音素特征，确定输入文本的音节单元，以及音节单元的音节特征，通过获取音节单元的特征，能够在音节粒度上更好地捕获输入文本的韵律变化特征；然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长，根据输入文本的原始音素的时长，将输入文本的原始音素扩充为帧序列单元，确定输入文本的帧序列和帧特征；根据输入文本的帧特征，确定输入文本的声学参数，并进行语音合成，能够将在音节粒度上捕获的韵律变化特征传递给底层音素，能够更好地捕获上下文特征，提高语音合成的自然度，提高语音合成的质量。

13.

发明公开
语音合成模型生成方法和装置有权

公开(公告)号：CN107452369A

公开(公告)日：2017-12-08

申请号：CN201710897311.6

申请日：2017-09-28

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李昊

IPC: G10L13/00 , G10L13/08 , G10L25/30

CPC classification number: G10L13/00 , G10L13/08 , G10L25/30

Abstract: 本申请公开了语音合成模型生成方法和装置。该方法的一具体实施方式包括：获取用于对语音合成模型对应的神经网络进行训练的文本的文本特征和文本对应的语音的声学特征，其中，声学特征中的用于训练的文本对应的语音的基频数据通过基频数据提取模型提取，基频数据提取模型基于利用包含的每一帧语音均对应有基频数据的语音预先对基频数据提取模型对应的神经网络进行训练而生成；利用文本特征和声学特征对语音合成模型对应的神经网络进行训练。实现了利用预先训练的基频数据提取模型提取用于训练的段语音的基频数据，使得用于训练语音的完整的基频数据可以用于对语音合成模型对应的神经网络的训练，进而提升训练效果。

14.

发明授权
定位初始化的处理方法、装置及可读存储介质有权转让

公开(公告)号：CN109633725B

公开(公告)日：2021-03-30

申请号：CN201811290722.X

申请日：2018-10-31

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李昊 , 杨晓龙 , 万国伟 , 侯深化 , 芮晓飞 , 宋适宇

IPC: G01S19/48 , G01C21/28 , G06F9/4401

Abstract: 本发明提供的定位初始化的处理方法、装置及可读存储介质，通过接收无人驾驶设备触发的启动指令，将所述启动指令同步发送至设置在无人驾驶设备上的多个定位模块中，各定位模块根据所述启动指令分别执行初始化处理，根据所述多个定位模块执行初始化处理后获得的多个定位数据，在任一定位数据的收敛度满足预设条件的情况下，向无人驾驶设备返回定位初始化成功信号。通过采用多个定位模块对无人驾驶设备分别执行初始化处理，从而使无人驾驶设备的初始化成功率得到提成，有效提高了无人驾驶设备定位初始化效率。

15.

发明授权
语音合成语料库的构建方法、装置及设备有权

公开(公告)号：CN110265028B

公开(公告)日：2020-10-09

申请号：CN201910534880.3

申请日：2019-06-20

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 侯建康 , 李昊 , 王振宇 , 李飞亚

IPC: G10L15/26 , G10L15/22 , G10L13/10 , G10L13/08

Abstract: 本发明实施例提供的语音合成语料库的构建方法、装置及设备，通过对干声语音进行语音处理，得到干声语音对应的纯净语音；将纯净语音识别为文本后，将纯净语音和文本输入至韵律转换工具中，获取纯净语音的韵律信息，将纯净语音和韵律信息作为训练语料，加入语料库中。由于干声语音获取成本较低，且可以在短时间内大量获得，降低了构建语料库的时间成本和人力成本；通过采用韵律转换工具对纯净语音和文本进行韵律转换，得到纯净语音对应的韵律信息，从而无需人工标注过程，进一步降低了构建语料库的时间成本和人力成本。

16.

发明授权
一种歌声生成方法、装置、终端和存储介质有权

公开(公告)号：CN108831437B

公开(公告)日：2020-09-01

申请号：CN201810622548.8

申请日：2018-06-15

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李昊

IPC: G10L13/02 , G10H7/00

Abstract: 本发明实施例公开了一种歌声生成方法、装置、终端和存储介质，其中，歌声生成方法包括：获取用户录入的与歌曲对应的语音信号；从预先建立的声学特征模板中获取歌曲对应的标准声学特征信息，根据标准声学特征信息对语音信号进行声学特征信息的更新；其中，声学特征模板中保存有至少一首歌曲的标准声学特征信息；将具有更新后的声学特征信息的语音信号作为目标语音信号进行存储或输出。本发明实施例克服了现有的利用大量的数据进行声学模型训练来实现语音到歌声的转换，且最终形成的歌声中不包含用户自己的声音，导致用户参与度和体验度不高的问题，实现了无需进行声学模型训练，即可实现将用户的语音转换为保留有用户自己的声音的歌声的效果。

17.

发明公开
基频处理方法、装置、设备及计算机可读存储介质有权

公开(公告)号：CN109979422A

公开(公告)日：2019-07-05

申请号：CN201910130728.9

申请日：2019-02-21

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 孙晨曦 , 盖于涛 , 李昊

IPC: G10H7/00 , G10L13/02

Abstract: 本发明提供一种基频处理方法、装置、设备及计算机可读存储介质，方法包括：接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；根据预设的提取规则从所述待处理文件中提取待训练数据；通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型。从而后续能够根据该基频建立模型实现对基频的建立，由于该基频建立模型通过待处理文件中提取出的待训练数据进行训练，从而根据该基频建立模型得到的基频能够模拟真实歌声中的多种技巧种类，基频表现力较高。

18.

发明授权
语音合成方法和语音合成装置有权

公开(公告)号：CN105845125B

公开(公告)日：2019-05-03

申请号：CN201610329738.1

申请日：2016-05-18

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李昊 , 康永国

IPC: G10L13/047

Abstract: 本发明公开了一种语音合成方法以及装置。其中方法包括：确定待合成语句文本信息所属的语种类型，其中，语种类型包括第一语种类型和第二语种类型；确定第一语种类型对应的第一基础模型，并确定第二语种类型对应的第二基础模型；确定目标音色，并根据目标音色分别对第一基础模型、第二基础模型进行自适应变换，并根据自适应变换后的第一基础模型、第二基础模型对待合成语句文本信息进行训练，以生成对应的谱参数和基频参数；根据目标音色对第一语种类型和第二语种类型的基频参数进行调整；依据第一语种类型的谱参数、第二语种类型的谱参数、调整后的第一语种类型的基频参数、第二语种类型的基频参数合成目标语音。

19.

发明公开
定位初始化的处理方法、装置及可读存储介质有权转让

公开(公告)号：CN109633725A

公开(公告)日：2019-04-16

申请号：CN201811290722.X

申请日：2018-10-31

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李昊 , 杨晓龙 , 万国伟 , 侯深化 , 芮晓飞 , 宋适宇

IPC: G01S19/48 , G01C21/28 , G06F9/4401

CPC classification number: G01S19/48 , G01C21/28 , G06F9/4405

Abstract: 本发明提供的定位初始化的处理方法、装置及可读存储介质，通过接收无人驾驶设备触发的启动指令，将所述启动指令同步发送至设置在无人驾驶设备上的多个定位模块中，各定位模块根据所述启动指令分别执行初始化处理，根据所述多个定位模块执行初始化处理后获得的多个定位数据，在任一定位数据的收敛度满足预设条件的情况下，向无人驾驶设备返回定位初始化成功信号。通过采用多个定位模块对无人驾驶设备分别执行初始化处理，从而使无人驾驶设备的初始化成功率得到提成，有效提高了无人驾驶设备定位初始化效率。

20.

发明公开
一种歌声生成方法、装置、终端和存储介质有权

公开(公告)号：CN108831437A

公开(公告)日：2018-11-16

申请号：CN201810622548.8

申请日：2018-06-15

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 李昊

IPC: G10L13/02 , G10H7/00

Abstract: 本发明实施例公开了一种歌声生成方法、装置、终端和存储介质，其中，歌声生成方法包括：获取用户录入的与歌曲对应的语音信号；从预先建立的声学特征模板中获取歌曲对应的标准声学特征信息，根据标准声学特征信息对语音信号进行声学特征信息的更新；其中，声学特征模板中保存有至少一首歌曲的标准声学特征信息；将具有更新后的声学特征信息的语音信号作为目标语音信号进行存储或输出。本发明实施例克服了现有的利用大量的数据进行声学模型训练来实现语音到歌声的转换，且最终形成的歌声中不包含用户自己的声音，导致用户参与度和体验度不高的问题，实现了无需进行声学模型训练，即可实现将用户的语音转换为保留有用户自己的声音的歌声的效果。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification