-
公开(公告)号:CN119940459A
公开(公告)日:2025-05-06
申请号:CN202411998858.1
申请日:2024-12-30
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团有限公司
IPC: G06N3/084 , G10L25/63 , G10L19/022 , G10L19/04 , G06N3/0442 , G06N3/045 , G06N3/047 , G06T13/20 , G06T13/40
Abstract: 本申请公开了一种数字人驱动模型训练及应用方法、装置、设备、存储介质和产品。该方法包括:获取训练样本集,训练样本集中的各语音样本包括:第一样本标签、第二样本标签和第三样本标签;基于训练样本集对数字人驱动模型进行训练,直至得到训练好的数字人驱动模型;数字人驱动模型训练的总损失函数基于第一损失函数、第二损失函数和第三损失函数确定,第一损失函数表征帧级情感分类结果对应的损失值,第二损失函数表征句级情感分类结果对应的损失值,第三损失函数表征数字人驱动参数对应的损失值。可以增强数字人的拟人逼真度,提升用户体验。
-
公开(公告)号:CN118737156A
公开(公告)日:2024-10-01
申请号:CN202410992158.5
申请日:2024-07-23
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团有限公司
Abstract: 本申请公开了一种说话人语音分割聚类方法、装置及电子设备,涉及语音处理技术领域。方法包括:对待检测语音进行预聚类处理,得到预聚类分割结果;将预聚类分割结果转化为文本,得到文本识别结果;基于文本识别结果,对初始语音跳变点进行动态调整,得到若干文本对数据;根据文本对数据,确定每一个文本对数据对应的跳变概率;基于跳变概率最大的文本对数据,对初始语音跳变点进行修正。通过预分割聚类结果并转文本处理,结合语义领域分析来确定语音跳变点,进而对语音分离方式确定的初始语音跳变点进行修正使其更加精确,解决目前的说话人跳变点的确定不够清晰,导致存在误差的问题。
-
公开(公告)号:CN119740620A
公开(公告)日:2025-04-01
申请号:CN202411799095.8
申请日:2024-12-09
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团有限公司
Abstract: 本申请提供一种模型训练及指令生成方法、装置、电子设备及介质,应用于计算机技术领域,该方法包括获取样本任务的图片数据、需求文本数据和目标执行指令;将样本任务的图片数据和需求文本数据输入初始的任务执行指令生成模型,得到任务执行指令生成模型输出的预测执行指令,其中,任务执行指令生成模型包括光学字符识别OCR模块,OCR模块用于识别所述样本任务的当前图片数据得到所述样本任务的局部文本数据与位置信息数据;基于目标执行指令和预测执行指令,对任务执行指令生成模型进行训练。该方法中,通过历史图片数据和OCR模块通过识别的局部文本数据和位置信息数据,可以进一步提高任务执行指令生成模型生成的执行指令的准确性。
-
-