-
公开(公告)号:CN110797005B
公开(公告)日:2022-06-10
申请号:CN201911072965.0
申请日:2019-11-05
申请人: 百度在线网络技术(北京)有限公司
IPC分类号: G10L13/10 , G10L13/08 , G06F40/289 , G06N20/00
摘要: 本申请实施例公开了一种韵律预测方法、装置、设备和介质,涉及数据处理领域,尤其涉及语音合成技术。该方法包括:对待预测的中英混合文本进行切分,得到中文文本和英文文本;确定中文文本中文字的字向量和英文文本中单词的词向量;根据确定的字向量和词向量,确定所述中英混合文本的韵律预测结果。本申请实施例提供了一种韵律预测方法、装置、设备和介质,提高了对中英混合文本的韵律预测准确率。
-
公开(公告)号:CN110782871B
公开(公告)日:2020-10-30
申请号:CN201911046827.5
申请日:2019-10-30
申请人: 百度在线网络技术(北京)有限公司
摘要: 本申请公开了一种韵律停顿预测方法、装置以及电子设备,涉及机器学习技术领域。具体实现方案为:基于已训练的嵌入层对待测文本序列进行映射,得到第一矩阵,其中,待测文本序列包括待测输入文本以及待测发音人的身份标识;将所述第一矩阵输入已训练的注意力模型中,基于所述已训练的注意力模型确定语义表示矩阵;基于所述语义表示矩阵进行韵律停顿预测,输出所述待测文本序列中每个文字的韵律停顿预测结果。
-
公开(公告)号:CN110941945A
公开(公告)日:2020-03-31
申请号:CN201911214094.1
申请日:2019-12-02
申请人: 百度在线网络技术(北京)有限公司
IPC分类号: G06F40/126 , G06F40/284
摘要: 本申请公开了语言模型预训练方法和装置。该方法的一具体实施方式包括:获取初始语言模型,初始语言模型用于确定输入到初始语言模型的文本数据中包含的字之间的关联关系;获取训练初始语言模型的训练样本集,训练样本集中的训练样本包括样本数据、第一标注信息和第二标注信息;将样本数据作为输入,将第一标注信息作为与初始语言模型的第一输出端连接的初始去噪自编码模型的期望输出,并将第二标注信息作为与初始语言模型的第二输出端连接的初始序列到序列模型的期望输出,对初始语言模型、初始去噪自编码模型和初始序列到序列模型进行预训练,得到训练后的语言模型。该实施方式可以显示捕获文本的音韵信息,有效提升了语言模型输出文本的语义表示效果。
-
公开(公告)号:CN109087627A
公开(公告)日:2018-12-25
申请号:CN201811202290.2
申请日:2018-10-16
申请人: 百度在线网络技术(北京)有限公司
摘要: 本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:对于预先设定的语音集合中语音的音节,提取该音节对应的基频,得到针对该音节的基频序列,根据上述基频序列得到针对该音节的基频特征信息;统计上述语音集合中语音的音节的基频特征信息,得到统计结果;根据上述统计结果,生成上述语音集合中语音的音节的重音信息。该实施方式实现了语音集合中语音的音节的重音信息的自动生成。
-
公开(公告)号:CN110289010B
公开(公告)日:2020-10-30
申请号:CN201910521230.5
申请日:2019-06-17
申请人: 百度在线网络技术(北京)有限公司
IPC分类号: G10L21/0264 , G10L21/0216 , G10L25/60 , G10L13/04
摘要: 本发明提供了一种声音采集的方法、装置、设备和计算机存储介质,其中方法包括:声音采集装置播放预设的语音片段的同时,采集第一声音数据;采集用户对所述语音片段的跟读声音数据;利用声音干扰系数对所述跟读声音数据进行去干扰处理,得到第二声音数据,其中所述声音干扰系数是利用所述语音片段和所述第一声音数据确定的;利用所述第二声音数据,得到用于语音合成的训练数据。通过本发明提供的方式能够提高采集的声音数据的质量。
-
公开(公告)号:CN110880198A
公开(公告)日:2020-03-13
申请号:CN201811037239.0
申请日:2018-09-06
申请人: 百度在线网络技术(北京)有限公司
IPC分类号: G06T13/40
摘要: 本申请实施例公开了动画生成方法和装置。所述方法的一实施例包括:响应于接收到输入文本,获取输入文本的动画标签,并得到输入文本中的词和动作之间的对应关系;生成与输入文本对应的语音;将基于所得到的对应关系对预设的人物形象的模型进行渲染生成的视频和所生成的语音合并,生成人物形象的动画。该实现方式可以使得生成的动画中,人物形象的动作能够自然而准确地体现输入文本所表达的含义。
-
公开(公告)号:CN110767212A
公开(公告)日:2020-02-07
申请号:CN201911018354.8
申请日:2019-10-24
申请人: 百度在线网络技术(北京)有限公司
IPC分类号: G10L13/08
摘要: 本申请公开了一种语音处理方法、装置和电子设备,涉及语音技术领域。具体实现方案为:通过自注意力模型对输入文本进行语义解析,以得到所述输入文本的文本语义信息;基于所述文本语义信息执行所述输入文本的N个语音任务,其中,执行每个语音任务的输入均包括所述文本语义信息,所述N为大于或者等于1的整数。本申请可以达到提高语音合成前端的可靠性的技术效果。
-
公开(公告)号:CN110853613B
公开(公告)日:2022-04-26
申请号:CN201911119829.2
申请日:2019-11-15
申请人: 百度在线网络技术(北京)有限公司
摘要: 本申请公开了一种韵律停顿等级预测的校正方法、装置、设备和介质,涉及韵律停顿等级预测技术。具体实现方案为:获取输入文本的韵律停顿等级的初始预测结果序列;获取所述初始预测结果序列的状态向量,其中,状态向量用于表示所述初始预测结果序列中各元素之间的依赖关系;将所述输入文本的语义向量与所述状态向量进行融合,得到融合向量;将所述融合向量输入条件随机场网络,得到校正后的预测结果序列。本申请实施例将语义向量与状态向量融合后再进行CRF,由于状态向量能表示预测结果序列中各元素之间的依赖关系,因此融合后不仅结合了语义信息,还结合了预测结果序列中各元素之间的依赖关系,从而提高CRF输出的最终校正后的预测结果序列的准确度。
-
公开(公告)号:CN110767212B
公开(公告)日:2022-04-26
申请号:CN201911018354.8
申请日:2019-10-24
申请人: 百度在线网络技术(北京)有限公司
IPC分类号: G10L13/08
摘要: 本申请公开了一种语音处理方法、装置和电子设备,涉及语音技术领域。具体实现方案为:通过自注意力模型对输入文本进行语义解析,以得到所述输入文本的文本语义信息;基于所述文本语义信息执行所述输入文本的N个语音任务,其中,执行每个语音任务的输入均包括所述文本语义信息,所述N为大于或者等于1的整数。本申请可以达到提高语音合成前端的可靠性的技术效果。
-
公开(公告)号:CN109346109B
公开(公告)日:2020-02-07
申请号:CN201811482074.8
申请日:2018-12-05
申请人: 百度在线网络技术(北京)有限公司
摘要: 本申请实施例公开了基频提取方法和装置。该方法的一具体实施方式包括:基于待处理语音信号的声学特征,提取待处理语音信号中各语音帧的候选基频点;对语音帧进行清浊音分类,得到各语音帧对应的清浊音类别;基于各语音帧对应的清浊音类别以及预设的基频筛选条件对候选基频点进行修正,并采用动态规划算法从修正后的候选基频点中确定出待处理语音信号的基频序列。该实施方式提升了基频提取的准确性。
-
-
-
-
-
-
-
-
-