一种语音编辑及优化方法、装置、设备及存储介质

    公开(公告)号:CN117409762A

    公开(公告)日:2024-01-16

    申请号:CN202311267145.3

    申请日:2023-09-27

    摘要: 本发明公开了一种语音编辑及优化方法、装置、设备及存储介质,该方法包括:将原始音频对应的掩盖后音频和待合成文本输入至语音编辑模型,得到编辑后音频,编辑后音频为将掩盖后音频和待合成文本进行编辑合成后生成的音频;将编辑后音频和原始音频输入声音转换模型,得到转换后音频,转换后音频为基于原始音频对编辑后音频的音频特征进行转换后的音频,本发明将原始音频对应的掩盖后音频和待合成文本输入语音编辑模型,得到编辑后音频,完成了自定义角色名场景下的配音任务,提升了用户的沉浸感;将编辑后音频和原始音频输入声音转换模型,优化了编辑后音频与原始音频边界的过渡,且保留了声优原始录制状态,提升了声音编辑后语音的表现力。

    一种语音识别系统、方法及介质
    4.
    发明公开

    公开(公告)号:CN117059071A

    公开(公告)日:2023-11-14

    申请号:CN202311139611.X

    申请日:2023-09-05

    摘要: 本发明公开了一种语音识别系统、方法及介质。其中,所述系统包括用户模块,用于根据待识别语音数据确定声学特征频谱,并根据声学特征频谱,以及,基于语音识别模型确定待识别语音数据的隐私特征,并将隐私特征发送至云端模块;用户模块,用于根据隐私特征以及基于语音识别模型确定第一文本数据以及第一文本数据得分;云端模块,用于根据隐私特征以及基于语音识别模型确定第二文本数据以及第二文本数据得分,将第二文本数据、第二文本数据得分发送至用户模块;用户模块,还用于基于各文本数据以及各文本数据得分确定目标文本数据。通过执行本方案,可以实现在保护用户隐私的同时保证了语音识别的实时性和准确性,可以提升用户体验。

    一种语音信号合成方法、装置、电子设备及存储介质

    公开(公告)号:CN117153142A

    公开(公告)日:2023-12-01

    申请号:CN202311101067.X

    申请日:2023-08-29

    IPC分类号: G10L13/02 G10L13/047

    摘要: 本发明公开了一种语音信号合成方法、装置、电子设备及存储介质。该方法包括:对输入文本进行正则化处理;将输入文本输入至经过训练的多任务模型;通过声学模型,根据音素序列和韵律结构特征的拼接结果预测语音的声音成分;通过声码器基于声音成分合成语音信号。上述技术方案,通过多任务模型基于指令集将输入文本转换为对应的韵律结构特征和音素序列,最后通过声学模型和声码器将音素序列和韵律结构特征合成语音信号,避免了为每个任务单独构建多任务模型,从而降低了多任务模型的复杂度,增强了文本转音素的精度和质量,提高了语音信号合成的处理效率和准确性,有助于在多语言场景中更加准确地预测出语音信号合成中的发音信息。

    一种视线注视点估计方法、装置、电子设备及存储介质

    公开(公告)号:CN117475499A

    公开(公告)日:2024-01-30

    申请号:CN202311444406.4

    申请日:2023-11-01

    摘要: 本发明实施例公开了一种视线注视点估计方法、装置、电子设备及存储介质。该方法包括:采用已标记人眼数据对瞳孔检测模型进行训练,确定目标瞳孔检测模型;采用所述目标瞳孔检测模型对车载视频中的人脸图像进行瞳孔检测,并确定车载视频中的人脸瞳孔位置信息以及面部图像信息;依据人脸瞳孔位置信息以及面部图像信息确定视线注视点坐标,并对视线注视点坐标进行编码,将编码后的视线注视点坐标信息与面部图像信息进行结合,构建视线注视点估计模型;将所述视线注视点估计模型进行训练,确定目标视线注视点估计模型,并采用所述目标视线注视点估计模型对车载视频中的目标人脸图像进行视线注视点估计。采用本方案,实现对视线注视点的有效估计。

    语音唤醒模型的更新方法、系统和介质

    公开(公告)号:CN116543758A

    公开(公告)日:2023-08-04

    申请号:CN202310762127.6

    申请日:2023-06-27

    IPC分类号: G10L15/06 G10L15/20 G10L15/22

    摘要: 本发明公开了一种语音唤醒模型的更新方法、系统和介质。该方法包括:获取计算节点集合中每个计算节点对应的私有模型和测试数据库;其中,所有计算节点位于同一个区域内;按照预设融合算法对私有模型进行融合,得到对应的目标增强模型;将测试数据库中的测试数据分别输入至每个私有模型和目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率;基于第一实际唤醒准确率、第二实际唤醒准确率和唤醒准确率差值阈值对每个计算节点的私有模型进行更新。本发明实现了通过处于同一个区域内的多个计算节点对自身实际工况下创建的私有数据库进行共享,并采用这些数据对基础模型进行增量训练,从而提升了在噪声环境下语音唤醒的准确率和稳定性。