-
公开(公告)号:CN109979422B
公开(公告)日:2021-09-28
申请号:CN201910130728.9
申请日:2019-02-21
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供一种基频处理方法、装置、设备及计算机可读存储介质,方法包括:接收第一基频提取工具提取的歌唱音频的第一基频,以及第二基频提取工具提取的音符音频的第二基频;根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作,获得待处理文件;根据预设的提取规则从所述待处理文件中提取待训练数据;通过所述待训练数据对预设的待训练模型进行训练,获得基频建立模型。从而后续能够根据该基频建立模型实现对基频的建立,由于该基频建立模型通过待处理文件中提取出的待训练数据进行训练,从而根据该基频建立模型得到的基频能够模拟真实歌声中的多种技巧种类,基频表现力较高。
-
公开(公告)号:CN107452369B
公开(公告)日:2021-03-19
申请号:CN201710897311.6
申请日:2017-09-28
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 李昊
Abstract: 本申请公开了语音合成模型生成方法和装置。该方法的一具体实施方式包括:获取用于对语音合成模型对应的神经网络进行训练的文本的文本特征和文本对应的语音的声学特征,其中,声学特征中的用于训练的文本对应的语音的基频数据通过基频数据提取模型提取,基频数据提取模型基于利用包含的每一帧语音均对应有基频数据的语音预先对基频数据提取模型对应的神经网络进行训练而生成;利用文本特征和声学特征对语音合成模型对应的神经网络进行训练。实现了利用预先训练的基频数据提取模型提取用于训练的段语音的基频数据,使得用于训练语音的完整的基频数据可以用于对语音合成模型对应的神经网络的训练,进而提升训练效果。
-
公开(公告)号:CN109146976B
公开(公告)日:2020-06-02
申请号:CN201810969118.3
申请日:2018-08-23
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了一种用于定位无人车的方法和装置。该方法的一具体实施方式包括:将第一分辨率的当前点云投影图像与第一分辨率的地图匹配,基于匹配结果,生成第一直方图滤波器;基于第一直方图滤波器中元素的概率值,在第一直方图滤波器中确定至少两个第一响应区,其中,第一响应区对应的元素的概率值大于第一直方图滤波器中其余元素的概率值;基于第二分辨率的当前点云投影图像与第二分辨率的地图的匹配结果以及至少两个第一响应区,生成第二直方图滤波器,其中,第一分辨率小于第二分辨率;对第二直方图滤波器中目标元素的概率值进行加权平均,在第二分辨率地图中确定无人车的定位结果。该实施方式降低了无人车定位所消耗的计算资源。
-
公开(公告)号:CN110265028A
公开(公告)日:2019-09-20
申请号:CN201910534880.3
申请日:2019-06-20
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供的语音合成语料库的构建方法、装置及设备,通过对干声语音进行语音处理,得到干声语音对应的纯净语音;将纯净语音识别为文本后,将纯净语音和文本输入至韵律转换工具中,获取纯净语音的韵律信息,将纯净语音和韵律信息作为训练语料,加入语料库中。由于干声语音获取成本较低,且可以在短时间内大量获得,降低了构建语料库的时间成本和人力成本;通过采用韵律转换工具对纯净语音和文本进行韵律转换,得到纯净语音对应的韵律信息,从而无需人工标注过程,进一步降低了构建语料库的时间成本和人力成本。
-
公开(公告)号:CN110264993A
公开(公告)日:2019-09-20
申请号:CN201910569831.3
申请日:2019-06-27
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供一种语音合成方法、装置、设备及计算机可读存储介质。本发明的方法,通过根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征;根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。
-
公开(公告)号:CN105845125A
公开(公告)日:2016-08-10
申请号:CN201610329738.1
申请日:2016-05-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/047
CPC classification number: G06F17/28 , G10L13/047 , G10L13/06
Abstract: 本发明公开了一种语音合成方法以及装置。其中方法包括:确定待合成语句文本信息所属的语种类型,其中,语种类型包括第一语种类型和第二语种类型;确定第一语种类型对应的第一基础模型,并确定第二语种类型对应的第二基础模型;确定目标音色,并根据目标音色分别对第一基础模型、第二基础模型进行自适应变换,并根据自适应变换后的第一基础模型、第二基础模型对待合成语句文本信息进行训练,以生成对应的谱参数和基频参数;根据目标音色对第一语种类型和第二语种类型的基频参数进行调整;依据第一语种类型的谱参数、第二语种类型的谱参数、调整后的第一语种类型的基频参数、第二语种类型的基频参数合成目标语音。
-
公开(公告)号:CN109781119B
公开(公告)日:2020-01-21
申请号:CN201711128451.3
申请日:2017-11-15
Applicant: 百度在线网络技术(北京)有限公司
IPC: G01C21/30
Abstract: 本申请提供一种激光点云定位方法和系统,所述方法包括:将自动驾驶车辆当前位置匹配的激光点云反射值数据和高度值数据转化为地平面内的激光点云投影数据;为激光点云投影数据与激光点云二维网格地图的反射值匹配概率以及高度值匹配概率分配权重,确定激光点云投影数据与激光点云二维网格地图的匹配概率;基于所述激光点云投影数据与激光点云二维网格地图的匹配概率确定所述自动驾驶车辆在激光点云二维网格地图中的位置。用于解决现有技术中激光点云与地图匹配时,单独考虑反射值匹配或高度值匹配,或将二者简单叠加,匹配结果较差的问题。能够提高激光点云定位精度,增强定位系统的鲁棒性。
-
公开(公告)号:CN108597492B
公开(公告)日:2019-11-26
申请号:CN201810410481.1
申请日:2018-05-02
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供一种语音合成方法和装置。该方法包括:获取待处理文本的音素特征和韵律及情感特征,根据音素特征和韵律及情感特征,采用预先训练的时长模型,确定待处理文本的语音时长,所述时长模型基于卷积神经网络训练得到,根据音素特征、韵律及情感特征和语音时长,采用预先训练的声学参数模型,确定待处理文本的声学特征参数,所述声学参数模型基于卷积神经网络训练得到,根据声学特征参数,合成待处理文本的语音。本发明实施例的方法,能够在满足实时性要求的前提下,提供音质更高,更加具有情感表现力,更加自然流畅的合成语音。
-
公开(公告)号:CN110197655A
公开(公告)日:2019-09-03
申请号:CN201910579495.0
申请日:2019-06-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于合成语音的方法和装置。该方法的一具体实施方式包括:接收语音合成请求,其中,语音合成请求包括语音合成文本和方言标识;按照方言标识所指示的方言的方言发音特征,将语音合成文本转换成方言语音;输出方言语音。该实施方式提高了语音合成所生成的语音的多样性。
-
公开(公告)号:CN109146976A
公开(公告)日:2019-01-04
申请号:CN201810969118.3
申请日:2018-08-23
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了一种用于定位无人车的方法和装置。该方法的一具体实施方式包括:将第一分辨率的当前点云投影图像与第一分辨率的地图匹配,基于匹配结果,生成第一直方图滤波器;基于第一直方图滤波器中元素的概率值,在第一直方图滤波器中确定至少两个第一响应区,其中,第一响应区对应的元素的概率值大于第一直方图滤波器中其余元素的概率值;基于第二分辨率的当前点云投影图像与第二分辨率的地图的匹配结果以及至少两个第一响应区,生成第二直方图滤波器,其中,第一分辨率小于第二分辨率;对第二直方图滤波器中目标元素的概率值进行加权平均,在第二分辨率地图中确定无人车的定位结果。该实施方式降低了无人车定位所消耗的计算资源。
-
-
-
-
-
-
-
-
-