一种针对听觉系统频率选择性损伤的听力补偿方法

    公开(公告)号:CN116582807A

    公开(公告)日:2023-08-11

    申请号:CN202310397202.3

    申请日:2023-04-14

    Applicant: 北京大学

    Abstract: 本发明公开了一种针对听觉系统频率选择性损伤的听力补偿方法,其步骤包括:1)使用全连接神经网络构建补偿模块,对训练集中的每一样本声音信号进行非线性变化,得到针对目标听力损伤程度人群补偿后的声音信号;2)对模拟听力损伤模型进行设置,作为该目标听力损伤程度人群的模拟听觉系统,对每一所述补偿后的声音信号进行非线性处理,生成非线性失真信号;3)将样本声音信号对应的补偿后的声音信号作为该样本声音信号对应的非线性失真信号的标签,生成一配对数据;4)利用生成的各所述配对数据训练所述神经网络;5)对于给定的一段声音信号,利用步骤4)训练后的神经网络进行处理,生成针对该目标听力损伤程度人群的补偿后的声音信号。

    引入基频线索的生成式语音分离方法和装置

    公开(公告)号:CN115910091A

    公开(公告)日:2023-04-04

    申请号:CN202211184016.3

    申请日:2022-09-27

    Applicant: 北京大学

    Abstract: 本发明公开了一种引入基频线索的生成式语音分离方法和装置。本发明开创性地利用基频线索作为条件,结合混合语音提供的频谱细节信息,使用生成式神经网络生成目标说话人语音,与传统通过估计混合语音的时频掩膜来提取目标语音的方法相比,分离语音的音质和可懂度得到提高。相比于同时分离所有说话人语音的方法,本发明通过引入基频线索解决了现有方法中说话人数目不确定和难以确定网络输出与真实说话人之间对应关系的问题。本发明依托于听觉加工机制和神经网络结构,取得了与当前最优方法可比的性能,为机器在复杂场景中解决语音分离任务提供了可能。

    一种两阶段的多说话人基频轨迹提取方法

    公开(公告)号:CN115631744A

    公开(公告)日:2023-01-20

    申请号:CN202211084602.0

    申请日:2022-09-06

    Applicant: 北京大学

    Abstract: 本发明一种两阶段的多说话人基频轨迹提取方法,其步骤包括:1)对给定的多说话人混合语音进行处理,得到所述多说话人混合语音中每一帧的频谱;2)利用卷积神经网络获取所述幅度谱的局部特征;3)将各帧的局部特征输入全连接层,得到每一帧对应的所有基频估计值;4)将所得各帧的基频估计值作为输入,迭代预测每一说话人的基频序列;其中第i轮迭代的处理方法为:a)将第i‑1轮分离的基频序列输入编码器得到基频序列的特征表示;b)将基频序列特征表示与基频估计值输入到条件链式模块中,得到第i轮迭代对应的隐层输出向量;c)解码器将第i轮迭代对应的隐层输出向量解码为第i个说话人的基频序列。本发明提出的方法无需预设输出数目。

    基于双向级联框架的迭代式基频估计与语音分离方法和装置

    公开(公告)号:CN115862659A

    公开(公告)日:2023-03-28

    申请号:CN202211184250.6

    申请日:2022-09-27

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于双向级联框架的迭代式基频提取与语音分离方法和装置,对混合语音逐帧迭代地进行“基频预测‑语音分离‑基频更新”,在迭代中提升二者的性能。基频预测模块为后续模块提供基频线索,解决了多个输出带来的置换问题和说话人数目不确定的问题。语音分离模块利用有条件的生成对抗网络进行生成式语音分离,提升分离的语音质量。基频更新模块从已分离出的干净语音中,重新提取基频,更新基频预测的预测值,实现了“预测‑分离‑更新”过程的闭环。在本发明提出的双向级联框架下,语音分离与基频提取这两个任务以迭代的方法交替更新,互相依赖、互相促进,两个任务都取得了更好的性能。

Patent Agency Ranking