说话人语音分割聚类方法、装置及电子设备

    公开(公告)号:CN118737156A

    公开(公告)日:2024-10-01

    申请号:CN202410992158.5

    申请日:2024-07-23

    Abstract: 本申请公开了一种说话人语音分割聚类方法、装置及电子设备,涉及语音处理技术领域。方法包括:对待检测语音进行预聚类处理,得到预聚类分割结果;将预聚类分割结果转化为文本,得到文本识别结果;基于文本识别结果,对初始语音跳变点进行动态调整,得到若干文本对数据;根据文本对数据,确定每一个文本对数据对应的跳变概率;基于跳变概率最大的文本对数据,对初始语音跳变点进行修正。通过预分割聚类结果并转文本处理,结合语义领域分析来确定语音跳变点,进而对语音分离方式确定的初始语音跳变点进行修正使其更加精确,解决目前的说话人跳变点的确定不够清晰,导致存在误差的问题。

    模型训练及指令生成方法、装置、电子设备及介质

    公开(公告)号:CN119740620A

    公开(公告)日:2025-04-01

    申请号:CN202411799095.8

    申请日:2024-12-09

    Abstract: 本申请提供一种模型训练及指令生成方法、装置、电子设备及介质,应用于计算机技术领域,该方法包括获取样本任务的图片数据、需求文本数据和目标执行指令;将样本任务的图片数据和需求文本数据输入初始的任务执行指令生成模型,得到任务执行指令生成模型输出的预测执行指令,其中,任务执行指令生成模型包括光学字符识别OCR模块,OCR模块用于识别所述样本任务的当前图片数据得到所述样本任务的局部文本数据与位置信息数据;基于目标执行指令和预测执行指令,对任务执行指令生成模型进行训练。该方法中,通过历史图片数据和OCR模块通过识别的局部文本数据和位置信息数据,可以进一步提高任务执行指令生成模型生成的执行指令的准确性。

Patent Agency Ranking