-
公开(公告)号:CN119380726A
公开(公告)日:2025-01-28
申请号:CN202311278704.0
申请日:2023-09-28
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供了一种生成语音克隆模型的方法及相关装置,方法应用于语音克隆领域,包括:获取用户通过终端设备输入的对多个参考音频的打分结果;基于多个参考音频和用户对多个参考音频的打分结果进行训练,获得声学反馈单元,声学反馈单元用于衡量用户对不同音频的听觉感受;获取用户通过终端设备输入的第一语音数据集;基于第一语音数据集和声学反馈单元,对语音克隆模型进行训练,获得语音克隆模型。在语音克隆模型训练过程中,考虑到了用户对不同音频的喜欢程度,将用户对多个参考音频的打分结果加入到语音克隆模型的训练过程中,训练获得的语音克隆模型更符合用户的使用需求,使用训练得到的语音克隆模型生成的语音更能满足用户的听觉感受。
-
公开(公告)号:CN118277228A
公开(公告)日:2024-07-02
申请号:CN202211667175.9
申请日:2022-12-23
Applicant: 华为云计算技术有限公司
IPC: G06F11/36
Abstract: 一种语音合成系统测试方法、装置及设备,本申请中,用户在需要测试语音合成系统时可以触发产生第一测试请求,第一测试请求用于请求对语音合成系统进行测试。测试装置接收用户触发的第一测试请求,分别对多个功能单元进行测试,获取多个功能单元的测试结果,生成语音合成系统的测试报告。测试装置向用户反馈语音合成系统的测试报告。通过上述方法,对于需要测试语音合成系统的用户,只需要触发第一测试请求,测试装置自行完成对对语音合成系统的测试,语音合成系统的测试的自动化程度更高,无需消耗较多人力。在对语音合成系统进行测试时,是以功能粒度进行测试,便于定位语音合成系统中出现问题的功能单元。
-
公开(公告)号:CN117687547A
公开(公告)日:2024-03-12
申请号:CN202211028540.1
申请日:2022-08-25
Applicant: 华为云计算技术有限公司
IPC: G06F3/0482 , G06F3/0484 , G06F3/04842 , G06N3/08 , G06N5/04 , G06F16/332
Abstract: 本申请提供了一种生成问答对的方法、装置、计算机集群和存储介质,属于文本问答技术领域。该方法包括:获取目标文本,将该目标文本输入问答对生成模型,获得该目标文本包括的至少一个问答对,每个问答对包括答案和问题,展示该至少一个问答对以及该至少一个问答对对应的操作类选项,该操作类选项用于用户对对应的问答对进行修正,获取用户使用该操作类选项对该至少一个问答对进行操作后的操作结果,基于该操作结果对该问答对生成模型进行更新。采用本申请的方案,能够提升获得准确问答对的效率。
-
公开(公告)号:CN117373432A
公开(公告)日:2024-01-09
申请号:CN202211071940.0
申请日:2022-09-02
Applicant: 华为云计算技术有限公司
IPC: G10L13/10 , G10L13/02 , G06F16/683
Abstract: 本申请提供了一种语音克隆方法,包括:确定目标场景,并根据该目标场景,确定属于目标场景的目标语料文本,然后根据该目标语料文本,确定目标对象的音频,该音频的语音内容与目标语料文本的内容相匹配,从而利用该目标语料文本以及目标对象的音频,训练目标场景对应的语音克隆模型,该语音克隆模型用于输出模拟目标对象在目标场景下发音的音频。由于语音克隆模型是基于目标对象针对目标场景下的语料文本的发音音频进行训练得到,这使得语音克隆模型根据文本所输出的新的语音,在音色、韵律和发音风格等方面的特征,能够更加符合目标对象在目标场景下的真实发音情况,以此可以有效提高语音克隆效果。此外,本申请还提供了对应的装置及相关设备。
-
公开(公告)号:CN119692417A
公开(公告)日:2025-03-25
申请号:CN202311607988.3
申请日:2023-11-27
Applicant: 华为云计算技术有限公司
IPC: G06N3/084 , G06N3/092 , G06N3/0499 , G06N3/0464 , G06N3/045
Abstract: 本申请提供了一种模型训练的方法、装置以及计算设备,该方法包括:接收用户输入的第一模型的配置参数的多个取值,该第一模型的配置参数包括该第一模型的训练参数和/或模型参数;根据第二模型预测得到该配置参数的多个取值分别对应的该第一模型的多个训练指标数据,该第一模型的训练指标数据包括该第一模型的训练过程数据和/或服务器训练该第一模型所消耗的硬件指标数据;从第一模型的多个训练指标数据中确定目标训练指标数据,并将该配置参数的多个取值中与该目标训练指标数据对应的目标取值发送给该用户;接收该用户确认的该目标取值,并基于该目标取值对该第一模型进行训练。该方法可以提高模型的训练速度和训练效率。
-
公开(公告)号:CN117351555A
公开(公告)日:2024-01-05
申请号:CN202210751554.X
申请日:2022-06-28
Applicant: 华为云计算技术有限公司
Abstract: 本申请实现方式公开了一种唇语识别方法,包括:获取待识别的多人说话视频;将多人说话视频输入至预设的目标唇语识别模型,由目标唇语识别模型提取多人说话视频的每帧图像中各人员的人脸图像,并根据人脸图像,得到每帧图像中各人员作为说话人的可能性信息,以及根据可能性信息,从每帧图像中筛选出目标说话人,并提取目标说话人的唇部图像,根据唇部图像,得到目标说话人的说话内容。如此,可以先识别出多人说话场景中潜在的真正的目标说话人,然后只需要对真正的目标说话人的唇语进行识别,即可以实现对多人说话视频中的说话人以及对应说话内容的准确识别。本申请实现方式还公开了一种唇语识别装置、唇语识别模型的训练方法和装置。
-
公开(公告)号:CN117688126A
公开(公告)日:2024-03-12
申请号:CN202211070471.0
申请日:2022-09-02
Applicant: 华为云计算技术有限公司
IPC: G06F16/33 , G06F16/332 , G06F40/30 , G06F18/241 , G06N3/04 , G06N3/08
Abstract: 本申请实施例提供了一种意图识别方法及装置、模型训练方法及装置,涉及人工智能技术领域,该方法包括:通过支持识别自定义算子的算子识别模型,识别文本中的自定义算子,可准确地识别到文本中槽位与槽值之间的逻辑关系,和/或槽位与槽位之间的逻辑关系,以利于基于识别到的自定义算子来提高意图识别的准确率。
-
公开(公告)号:CN114168729A
公开(公告)日:2022-03-11
申请号:CN202010947082.6
申请日:2020-09-10
Applicant: 华为云计算技术有限公司
IPC: G06F16/35
Abstract: 本申请提供了一种文本聚类系统,包括聚类装置以及交互装置。其中,聚类装置,用于对多个文本进行聚类,得到初始聚类结果,而交互装置可以呈现从聚类装置获取的初始聚类结果,并响应针对初始聚类结果中第一部分的调整操作,得到第一聚类结果;聚类装置还根据针对于该第一部分的调整操作,将初始聚类结果中的第二部分更新为第二聚类结果。如此,不仅实现了调整后的聚类结果符合用户的预期,而且,用户是直接对聚类结果进行调整,无需根据聚类错误分析如何调整聚类算法的模型参数,以此可以缩短优化聚类结果的耗时,从而可以提高整个文本聚类过程的效率。此外,本申请还提供了一种文本聚类方法、装置、设备及介质。
-
公开(公告)号:CN119514632A
公开(公告)日:2025-02-25
申请号:CN202311393706.4
申请日:2023-10-25
Applicant: 华为云计算技术有限公司
IPC: G06N3/082
Abstract: 本申请公开了一种网络模型的训练方法、云平台及相关装置,属于人工智能技术领域。所述方法包括:提供参数配置界面,从该参数配置界面中获取目标网络模型的参数量和类型,基于该目标网络模型的参数量和类型,确定目标网络模型的训练配置信息,该目标网络模型的训练过程被划分为多个训练阶段,不同训练阶段对应的模型参数量不同,且该多个训练阶段的模型参数量按照训练先后顺序依次递增,该训练配置信息包括多个训练阶段的配置信息,按照该多个训练阶段的配置信息,对目标网络模型进行训练。这样,能够实现对网络模型训练的分阶段精细控制,还能够有效加快网络模型的收敛速度,节约网络模型训练所需的计算量,降低网络模型训练成本。
-
公开(公告)号:CN117688123A
公开(公告)日:2024-03-12
申请号:CN202211039454.0
申请日:2022-08-29
Applicant: 华为云计算技术有限公司
Abstract: 本申请提供了一种文档结构树的生成方法以及装置,该方法包括:获取文本#A,该文本#A包括至少两个文本单元,至少两个文本单元包括第一文本单元与第二文本单元,第一文本单元与第二文本单元相邻;获取至少两个语义信息,至少两个语义信息包括第一语义信息与第二语义信息,第一语义信息与第二语义信息用于确定第一文本单元与第二文本单元之间的层级关系,第一文本单元对应于第一语义信息,第二文本单元对应于第二语义信息;将至少两个语义信息输入到神经网络模型,推理得到文本#A的第一文档结构树。通过上述方法,本申请实施例可以实现为绝大多数的文档生成相应的文档结构树,且不受文档的版式、字符的属性信息等因素的限制。
-
-
-
-
-
-
-
-
-