-
公开(公告)号:CN117831510A
公开(公告)日:2024-04-05
申请号:CN202410068124.7
申请日:2024-01-17
申请人: 杭州电子科技大学
摘要: 本发明涉及身份隐私保护技术领域,具体涉及一种面向语音数据的身份隐私保护方法及系统,包括:语音特征提取模块,通过F0提取器、BN向量提取器和x‑vector提取器提取用户的语音信号的F0、BN向量和x‑vector;修改x‑vector模块,将得到的x‑vector通过三个独立训练的对抗样本生成器,生成匿名化x‑vector;语音合成模块,将F0、BN向量和匿名化x‑vector通过MFCC生成器生成MFCC,并将生成的MFCC与F0、匿名化x‑vector一同输入声码器,生成匿名化语音。本发明在保证安全性的同时,尽量保留数据的可用性,避免不必要的信息损失,更好地保留了原语音的音质和可懂度。
-
公开(公告)号:CN115376533A
公开(公告)日:2022-11-22
申请号:CN202210978891.2
申请日:2022-08-16
申请人: 杭州电子科技大学
IPC分类号: G10L21/013 , G10L19/16
摘要: 本发明使用基于音素的信息瓶颈来表征说话人风格和控制转换语音的速度,由内容编码器、说话人编码器、音素时长转换器、解码器和声码器组成。通过编码器和解码器之间的信息瓶颈从源语音中分离出内容信息,并将其与目标说话人嵌入一起输入解码器,最后输入声码器并生成转换后的语音。本发明通过引入持续时长转换器,利用设计好的音素级信息瓶颈来分离说话人内容信息和说话人风格信息,可以适用于零次学习,对训练数据集外的语音也同样适用。
-
公开(公告)号:CN117292677A
公开(公告)日:2023-12-26
申请号:CN202311294209.9
申请日:2023-10-09
申请人: 杭州电子科技大学
IPC分类号: G10L15/01 , G10L15/02 , G10L15/06 , G10L15/07 , G10L15/16 , G06N3/0442 , G06N3/0464 , G06N3/048 , G06N3/084
摘要: 本发明提供一种用于语音转换系统的音质评估方法,先将语音数据进行文件格式转换,再使用神经网络模型对格式转换后的文件进行特征提取,构建损失函数,使用已标注MOS评价分数的公开语音数据集对神经网络模型进行训练,得到训练好的神经网络模型,用于实际评估。本方法通过对主观评价的分数进行预测,能在一定程度上代替语音的主观评价,省去了人工成本。另外,通过改变评测分数的类别,使预测的分数既可以是语音MOS分数,也可以是相似度分数,从而实现多类别的评价分数预测。
-
-