一种可保留语音情感的说话人隐私保护方法及系统

    公开(公告)号:CN119207441B

    公开(公告)日:2025-04-08

    申请号:CN202411174387.2

    申请日:2024-08-26

    Abstract: 本发明属于智能数字信号处理技术领域,公开了一种可保留语音情感的说话人隐私保护方法及系统,方法包括:获取说话人的原始音频并输入到端到端情感语音融合模型;利用融合模型对原始音频进行推理,改变原始音频中的声纹信息,得到保留情感状态的伪说话人音频;融合模型包括先验编码器和波形解码器,先验编码器接收原始音频和说话人身份标识号ID,计算并利用原始音频的基频编码、内容编码、情感编码和说话人ID编码生成先验分布均值和方差;波形解码器将先验分布均值和方差还原成伪说话人音频。使用模型融合手段,既生成了未见的伪说话人音频,又避免了推理过程的“分布外”问题,解决了情感留存和伪说话人信息之间不匹配的问题。

    一种可保留语音情感的说话人隐私保护方法及系统

    公开(公告)号:CN119207441A

    公开(公告)日:2024-12-27

    申请号:CN202411174387.2

    申请日:2024-08-26

    Abstract: 本发明属于智能数字信号处理技术领域,公开了一种可保留语音情感的说话人隐私保护方法及系统,方法包括:获取说话人的原始音频并输入到端到端情感语音融合模型;利用融合模型对原始音频进行推理,改变原始音频中的声纹信息,得到保留情感状态的伪说话人音频;融合模型包括先验编码器和波形解码器,先验编码器接收原始音频和说话人身份标识号ID,计算并利用原始音频的基频编码、内容编码、情感编码和说话人ID编码生成先验分布均值和方差;波形解码器将先验分布均值和方差还原成伪说话人音频。使用模型融合手段,既生成了未见的伪说话人音频,又避免了推理过程的“分布外”问题,解决了情感留存和伪说话人信息之间不匹配的问题。

    一种跨语言端到端情感语音合成方法及系统

    公开(公告)号:CN117789771A

    公开(公告)日:2024-03-29

    申请号:CN202311545240.5

    申请日:2023-11-20

    Abstract: 本发明涉及智能数字信号处理领域,具体涉及一种跨语言端到端情感语音合成方法及系统。采用本方法训练深度神经网络模型,可通过给定待合成A语种文本及带有情感的B语种参考语音,合成自然流畅、情感表达良好的A语种目标说话人语音。具体方法包括:采集语音‑文本成对的原始训练数据,提取语音频域特征,离散编码文本,提取语言无关情感嵌入编码,构建完全端到端情感语音合成模型并进行有监督训练。上述语音合成模型内含情感文本融合编码模块、目标时长预测模块、后验编码模块、音频解码模块和判别模块。语音合成模型训练至收敛后,可通过先验编码模块、时长预测模块和音频解码模块推理出所需要的目标说话人情感语音。

Patent Agency Ranking