-
公开(公告)号:CN118733613A
公开(公告)日:2024-10-01
申请号:CN202411001729.0
申请日:2024-07-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/242 , G06F16/2455 , G06F16/248 , G06F16/22 , G06F16/25 , G06F16/332 , G06F16/951 , G06V30/19
Abstract: 本公开提供了一种数据处理方法,涉及人工智能技术领域,尤其涉及大模型、深度学习、自然语言处理、计算机视觉技术领域。具体实现方案为:响应于接收到针对输入数据的查询文本,获取输入数据的数据结构,其中,数据结构包括多个层级的节点,每个节点包含输入数据的内容;从数据结构中获取内容为文本的节点所包含的目标文本;以及基于查询文本和目标文本,确定输出数据。本公开还提供了一种数据处理装置、电子设备和存储介质。
-
公开(公告)号:CN110473516A
公开(公告)日:2019-11-19
申请号:CN201910888456.9
申请日:2019-09-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种语音合成方法、装置以及电子设备,涉及语音合成领域。具体实现方案为:将文本信息输入至声学模型的编码器中,输出当前时间步的文本特征;将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征,输入至声学模型的译码器中,得到当前时间步的谱特征;将当前时间步的谱特征输入至神经网络声码器中,输出语音。将自回归的声学模型和神经网络声码器结合,使得在节省硬件资源,加快语音合成速度的同时,提高合成语音的自然度和音质。
-
公开(公告)号:CN109241721A
公开(公告)日:2019-01-18
申请号:CN201811159901.X
申请日:2018-09-30
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于推送信息的方法和装置。该方法的一具体实施方式包括:对采集的语音信息进行声纹识别得到声纹识别结果,以及根据上述语音信息确定声源的位置;基于上述声源的位置,控制图像采集设备采集图像;响应于从采集到的图像中检测到人脸图像,对检测到的人脸图像进行人脸识别,得到人脸识别结果;基于上述人脸识别结果和上述声纹识别结果确定用户标识,以及根据所确定的用户标识推送信息。该实施方式实现了富于针对性的信息推送。
-
公开(公告)号:CN111354370B
公开(公告)日:2021-06-25
申请号:CN202010091799.5
申请日:2020-02-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种唇形特征预测方法、装置和电子设备,涉及虚拟技术领域。具体实现方案为:识别语音特征的PPG;使用神经网络模型对所述PPG进行预测,以预测到语音特征的唇形特征,其中,所述神经网络模型为使用训练样本进行训练得到输入包括PPG,输出包括唇形特征的神经网络模型,所述训练样本包括PPG训练样本和唇形特征训练样本。本申请可以提高预测唇形特征的准确性。
-
公开(公告)号:CN112151003A
公开(公告)日:2020-12-29
申请号:CN201910569448.8
申请日:2019-06-27
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种并行语音合成方法、装置、设备以及计算机可读存储介质。方法包括将一段文本拆分成多个片段,然后根据这段文本获得多个片段的用于循环神经网络的多个初始隐状态。方法还包括基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。本公开的实施例在使用循环神经网络并行合成多个片段的过程中,通过隐状态预测模型为每个片段提供初始隐状态,不仅能够提升语音合成的速度,实现实时的语音合成,而且能够缓解片段之间的隐状态中断,由此保证合成语音的质量。
-
公开(公告)号:CN110473516B
公开(公告)日:2020-11-27
申请号:CN201910888456.9
申请日:2019-09-19
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种语音合成方法、装置以及电子设备,涉及语音合成领域。具体实现方案为:将文本信息输入至声学模型的编码器中,输出当前时间步的文本特征;将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征,输入至声学模型的译码器中,得到当前时间步的谱特征;将当前时间步的谱特征输入至神经网络声码器中,输出语音。将自回归的声学模型和神经网络声码器结合,使得在节省硬件资源,加快语音合成速度的同时,提高合成语音的自然度和音质。
-
公开(公告)号:CN112151003B
公开(公告)日:2025-01-28
申请号:CN201910569448.8
申请日:2019-06-27
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本公开提供了一种并行语音合成方法、装置、设备以及计算机可读存储介质。方法包括将一段文本拆分成多个片段,然后根据这段文本获得多个片段的用于循环神经网络的多个初始隐状态。方法还包括基于多个初始隐状态和多个片段的输入特征,并行合成多个片段。本公开的实施例在使用循环神经网络并行合成多个片段的过程中,通过隐状态预测模型为每个片段提供初始隐状态,不仅能够提升语音合成的速度,实现实时的语音合成,而且能够缓解片段之间的隐状态中断,由此保证合成语音的质量。
-
公开(公告)号:CN111354370A
公开(公告)日:2020-06-30
申请号:CN202010091799.5
申请日:2020-02-13
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请公开了一种唇形特征预测方法、装置和电子设备,涉及虚拟技术领域。具体实现方案为:识别语音特征的PPG;使用神经网络模型对所述PPG进行预测,以预测到语音特征的唇形特征,其中,所述神经网络模型为使用训练样本进行训练得到输入包括PPG,输出包括唇形特征的神经网络模型,所述训练样本包括PPG训练样本和唇形特征训练样本。本申请可以提高预测唇形特征的准确性。
-
-
-
-
-
-
-