-
公开(公告)号:CN107437413B
公开(公告)日:2020-09-25
申请号:CN201710541569.2
申请日:2017-07-05
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/10
Abstract: 本发明提出一种语音播报方法及装置,其中,方法包括:获取待播报对象;识别待播报对象的目标对象类型;根据目标对象类型获取与待播报对象匹配的播报标签集合;其中,播报标签集合用于表征出待播报对象的播报规则;根据播报标签集合所表征的播报规则播报待播报对象。该方法能够在播报时将待播报内容所携带的情感展现给听众,使听众能够在听觉上感受到该内容所携带的情感,且按照播报标签来播报对象是对语音合成标记语言(speech Synthesis Markup Language,简称SSML)规范的一种实现手段,有利于人们通过各种终端设备来聆听语音。
-
公开(公告)号:CN105551481B
公开(公告)日:2019-05-31
申请号:CN201510967511.5
申请日:2015-12-21
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 康永国
IPC: G10L13/10
Abstract: 本发明提出一种语音数据的韵律标注方法及装置,其中,该方法包括:获取待标注语音数据的文本信息,提取第一文本特征信息和第二文本特征信息;提取声学特征信息;根据第一文本特征信息和韵律预测模型生成N个候选韵律特征信息;基于N个候选韵律特征信息、第二文本特征信息和声学预测模型生成N个候选声学特征信息;分别计算每个候选声学特征信息与声学特征信息之间的相关值;将最大相关值的候选声学特征所对应的候选韵律特征信息作为待标注语音数据的目标韵律特征信息;根据目标韵律特征信息对待标注语音数据的韵律特征进行标注。该实施例的方法及装置,准确对标注语音数据的韵律停顿进行了标注,进而可使合成语音更加流畅自然。
-
公开(公告)号:CN108182936A
公开(公告)日:2018-06-19
申请号:CN201810209741.9
申请日:2018-03-14
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G10L15/02 , G10L13/02 , G10L15/063 , G10L19/04
Abstract: 本申请实施例公开了语音信号生成方法和装置。该方法的一具体实施方式包括:获取待转换为语音信号的合成文本;采用已训练的参数合成模型对合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,声学特征包括基频信息和频谱特征;将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出合成文本对应的语音信号;语音信号生成模型是基于参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从第一样本语音信号中提取出的基频信息训练得出的;参数合成模型是基于第二样本语音库训练得出的。该实施方式提升了合成语音的质量。
-
公开(公告)号:CN107437413A
公开(公告)日:2017-12-05
申请号:CN201710541569.2
申请日:2017-07-05
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/10
Abstract: 本发明提出一种语音播报方法及装置,其中,方法包括:获取待播报对象;识别待播报对象的目标对象类型;根据目标对象类型获取与待播报对象匹配的播报标签集合;其中,播报标签集合用于表征出待播报对象的播报规则;根据播报标签集合所表征的播报规则播报待播报对象。该方法能够在播报时将待播报内容所携带的情感展现给听众,使听众能够在听觉上感受到该内容所携带的情感,且按照播报标签来播报对象是对语音合成标记语言(speech Synthesis Markup Language,简称SSML)规范的一种实现手段,有利于人们通过各种终端设备来聆听语音。
-
公开(公告)号:CN105654940A
公开(公告)日:2016-06-08
申请号:CN201610051963.3
申请日:2016-01-26
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供了一种语音合成方法和装置,其中方法包括:利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。本发明能够提高最终合成的语音的自然度和表现力。
-
公开(公告)号:CN105355193A
公开(公告)日:2016-02-24
申请号:CN201510728762.8
申请日:2015-10-30
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种语音合成方法和装置,该语音合成方法包括:获取以段落或篇章为单位的文本数据;在发音人朗读所述文本数据时进行录制,得到所述文本数据对应的语音数据,其中,发音人在朗读时结合文本数据的语义进行个人情感表达;生成韵律模型,以及,根据所述文本数据和所述语音数据生成声学模型;在需要进行语音合成时,根据预先生成的韵律模型和声学模型对输入文本进行处理,得到所述输入文本对应的合成语音。该方法能够提高合成语音的情感表现力。
-
公开(公告)号:CN108630190B
公开(公告)日:2019-12-10
申请号:CN201810478000.0
申请日:2018-05-18
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/04 , G10L13/047 , G10L25/30 , G06N3/08
Abstract: 本申请实施例公开了用于生成语音合成模型的方法和装置。该方法的一具体实施方式包括:获取训练样本集合,训练样本包括样本文本信息、与样本文本信息对应的样本音频数据和样本音频数据的基频;获取初始深度神经网络;利用机器学习方法,将训练样本集合中的训练样本的样本文本信息作为输入,将与输入的样本文本信息对应的样本音频数据和样本音频数据的基频作为输出,对初始深度神经网络进行训练,将训练后初始深度神经网络确定为语音合成模型。该实施方式实现了生成语音合成模型。由此生成的语音合成模型可以基于文本信息得到对应的音频数据,而不需要输入基频。
-
公开(公告)号:CN105529023B
公开(公告)日:2019-09-03
申请号:CN201610049832.1
申请日:2016-01-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/02 , G10L13/033 , G10L13/047 , G10L13/10
Abstract: 本发明提出一种语音合成方法和装置,该语音合成方法包括:对要合成的文本进行文本特征提取,获取上下文特征信息;获取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数;根据所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型输出参数包括:多个韵律层级的基频参数;对所述多个韵律层级的基频参数进行基频重构;根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。该方法能够提高合成语音的表现效果。
-
公开(公告)号:CN105590623B
公开(公告)日:2019-07-30
申请号:CN201610102345.7
申请日:2016-02-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G10L13/08 , G10L15/187 , G10L25/30
CPC classification number: G10L15/063 , G06F17/2217 , G06N3/04 , G06N3/0445 , G06N3/0454 , G06N3/08 , G10L13/00 , G10L15/02 , G10L15/16 , G10L2015/025
Abstract: 本申请提出一种基于人工智能的字母音素转换模型生成方法及装置,其中,该方法包括:在应用神经网络对训练数据中的每个单词进行字母音素转换的每次训练过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;最终对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。通过本申请提供的基于人工智能的字母音素转换模型生成方法和装置,提高了字母音素转换模型的学习能力和泛化能力,从而避免了过拟合现象。
-
公开(公告)号:CN104538024B
公开(公告)日:2019-03-08
申请号:CN201410720550.0
申请日:2014-12-01
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提供了语音合成方法、装置和设备。该方法包括:获取待处理文本的语境信息;根据所述语境信息利用时长预测模型确定语音时长,其中所述时长预测模型是基于深度神经网络训练得到;根据所述语境信息及所述语音时长,利用谱和基频预测模型确定谱和基频特征参数;根据所述谱和基频特征参数得到合成语音。本发明提供的语音合成方法能够提供高音质、自然流畅的语音。
-
-
-
-
-
-
-
-
-