Patent search ap:("中国科学院声学研究所") AND inv:"华桦" Page 1

1.

发明授权
一种可保留语音情感的说话人隐私保护方法及系统有权

公开(公告)号：CN119207441B

公开(公告)日：2025-04-08

申请号：CN202411174387.2

申请日：2024-08-26

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 华桦 , 尚增强 , 王丽

IPC: G10L21/013 , G10L25/30 , G10L25/63

Abstract: 本发明属于智能数字信号处理技术领域，公开了一种可保留语音情感的说话人隐私保护方法及系统，方法包括：获取说话人的原始音频并输入到端到端情感语音融合模型；利用融合模型对原始音频进行推理，改变原始音频中的声纹信息，得到保留情感状态的伪说话人音频；融合模型包括先验编码器和波形解码器，先验编码器接收原始音频和说话人身份标识号ID，计算并利用原始音频的基频编码、内容编码、情感编码和说话人ID编码生成先验分布均值和方差；波形解码器将先验分布均值和方差还原成伪说话人音频。使用模型融合手段，既生成了未见的伪说话人音频，又避免了推理过程的“分布外”问题，解决了情感留存和伪说话人信息之间不匹配的问题。

2.

发明公开
一种可保留语音情感的说话人隐私保护方法及系统审中-实审

公开(公告)号：CN119207441A

公开(公告)日：2024-12-27

申请号：CN202411174387.2

申请日：2024-08-26

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 华桦 , 尚增强 , 王丽

IPC: G10L21/013 , G10L25/30 , G10L25/63

Abstract: 本发明属于智能数字信号处理技术领域，公开了一种可保留语音情感的说话人隐私保护方法及系统，方法包括：获取说话人的原始音频并输入到端到端情感语音融合模型；利用融合模型对原始音频进行推理，改变原始音频中的声纹信息，得到保留情感状态的伪说话人音频；融合模型包括先验编码器和波形解码器，先验编码器接收原始音频和说话人身份标识号ID，计算并利用原始音频的基频编码、内容编码、情感编码和说话人ID编码生成先验分布均值和方差；波形解码器将先验分布均值和方差还原成伪说话人音频。使用模型融合手段，既生成了未见的伪说话人音频，又避免了推理过程的“分布外”问题，解决了情感留存和伪说话人信息之间不匹配的问题。

3.

发明公开
一种跨语言端到端情感语音合成方法及系统审中-实审

公开(公告)号：CN117789771A

公开(公告)日：2024-03-29

申请号：CN202311545240.5

申请日：2023-11-20

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 华桦 , 尚增强 , 黎塔 , 王丽

IPC: G10L25/63 , G10L13/02 , G10L17/04 , G10L19/008

Abstract: 本发明涉及智能数字信号处理领域，具体涉及一种跨语言端到端情感语音合成方法及系统。采用本方法训练深度神经网络模型，可通过给定待合成A语种文本及带有情感的B语种参考语音，合成自然流畅、情感表达良好的A语种目标说话人语音。具体方法包括：采集语音‑文本成对的原始训练数据，提取语音频域特征，离散编码文本，提取语言无关情感嵌入编码，构建完全端到端情感语音合成模型并进行有监督训练。上述语音合成模型内含情感文本融合编码模块、目标时长预测模块、后验编码模块、音频解码模块和判别模块。语音合成模型训练至收敛后，可通过先验编码模块、时长预测模块和音频解码模块推理出所需要的目标说话人情感语音。

Patent Agency Ranking