使用卷积神经网络架构进行音频处理的方法和装置

    公开(公告)号:CN116348884A

    公开(公告)日:2023-06-27

    申请号:CN202180071332.7

    申请日:2021-10-19

    Abstract: 描述了基于卷积神经网络(CNN)进行音频处理的系统、方法和计算机程序产品。第一CNN架构可以包括U‑net的收缩路径、多尺度CNN和U‑net的扩张路径。收缩路径可以包括第一编码层,并且可以被配置为生成收缩路径的输出表示。多尺度CNN可以被配置为基于收缩路径的输出表示来生成中间表示。多尺度CNN可以包括至少两条并行卷积路径。扩张路径可以包括第一解码层,并且可以被配置为基于由多尺度CNN生成的中间表示来生成最终表示。在第二CNN架构中,第一编码层可以包括具有至少两条并行卷积路径的第一多尺度CNN,并且第一解码层可以包括具有至少两条并行卷积路径的第二多尺度CNN。

    改进基于掩码的语音增强中的噪声补偿

    公开(公告)号:CN118215960A

    公开(公告)日:2024-06-18

    申请号:CN202280074819.5

    申请日:2022-11-07

    Inventor: 孙俊岱 双志伟

    Abstract: 描述了用于改进基于掩码的语音增强中的噪声补偿的方法和装置。一种处理包括一个或多个语音片段的音频信号的方法,该方法包括获得用于对该音频信号进行基于掩码的语音增强的掩码,以及获得该音频信号的幅度。基于掩码和音频信号的幅度,在基于掩码的语音增强之后确定音频信号中的残留噪声的估计值。基于残留噪声的估计值来确定经修改的掩码。进一步描述了对应的程序和计算机可读存储介质。

    使用嵌套卷积神经网络架构进行音频处理的方法和装置

    公开(公告)号:CN116368495A

    公开(公告)日:2023-06-30

    申请号:CN202180071571.2

    申请日:2021-10-19

    Abstract: 描述了基于卷积神经网络(CNN)进行音频处理的系统、方法和计算机程序产品。CNN架构可以包括多尺度输入块和多尺度嵌套块。多尺度输入块可以被配置为接收输入数据,并且通过对输入数据进行下采样来生成第一下采样输入数据集。多尺度嵌套块可以包括第一编码层,第一编码层被配置为通过基于输入数据执行卷积来生成第一编码数据集。多尺度嵌套块可以包括第二编码层,第二编码层被配置为通过基于第一下采样输入数据集执行卷积来生成第二编码数据集。此外,多尺度嵌套块可以包括第一卷积层,第一卷积层被配置为通过对第二编码数据集进行上采样、将第一编码数据集和上采样的第二编码数据集进行级联、并且执行卷积来生成第一输出数据集。第一卷积层可以嵌套在编码层与解码层之间,从而增加了与CNN的通信通道的数量,并且简化了底层优化问题。

    信号处理中的源分离和再混合
    4.
    发明公开

    公开(公告)号:CN118266022A

    公开(公告)日:2024-06-28

    申请号:CN202280076263.3

    申请日:2022-10-26

    Abstract: 本公开涉及一种用于执行源分离的方法和音频处理系统(1)。方法包括:获得(S1)包括语音内容和噪声内容的混合的音频信号(Sin);从音频信号中确定(S2a,S2b,S2c)语音内容(式A)、平稳噪声内容(式C)和非语音内容(式B)。平稳噪声内容(式C)是非语音内容(式B)的真子集,并且方法进一步包括:基于平稳噪声内容(式C)与非语音内容(式B)之间的差异来确定(S3)非平稳噪声内容(式D);获得(S5)加权因子集合;以及基于用相应的加权因子加权的语音内容(式A)、平稳噪声内容(式C)和非平稳噪声内容(式D)的组合来形成(S6)经处理的音频信号。#imgabs0##imgabs1##imgabs2##imgabs3#

    对语音增强中的语音保留的控制
    5.
    发明公开

    公开(公告)号:CN118215961A

    公开(公告)日:2024-06-18

    申请号:CN202280074139.3

    申请日:2022-11-08

    Inventor: 孙俊岱 芦烈

    Abstract: 提供了一种用于对音频信号执行去噪的方法。在一些实施方式中,方法涉及确定调节要应用的语音保留的程度的激进性控制参数值。在一些实施方式中,方法涉及获得训练样本的训练集,训练样本具有有噪声音频信号和目标去噪掩码。在一些实施方式中,方法涉及训练机器学习模型,其中,经训练的机器学习模型可用于将有噪声测试音频信号作为输入,并生成对应的去噪测试音频信号,并且其中,激进性控制参数值被用于以下各项:1)生成包括在训练集中的有噪声音频信号的频域表示;2)修改目标去噪掩码;3)确定机器学习模型的架构;或4)确定机器学习模型的训练期间的损失。

    确定混合音频信号的对话质量度量

    公开(公告)号:CN116686047A

    公开(公告)日:2023-09-01

    申请号:CN202280009038.8

    申请日:2022-01-04

    Abstract: 公开了一种用于确定包括对话分量和噪声分量的混合音频信号的一个或多个对话质量度量的方法,该方法包括通过对话分离器使用对话分离模型从混合音频信号中分离出估计的对话分量,该对话分离模型通过基于一个或多个质量度量训练对话分离器而被确定;将所估计的对话分量从对话分离器提供给质量度量估计器;以及通过质量度量估计器基于混合信号和估计的对话分量来确定一个或多个质量度量。还公开了一种用于训练对话分离器的方法、一种包括被配置为执行该方法的电路的系统、以及一种非暂时性计算机可读存储介质。

    用于利用多个监督器进行神经网络训练的方法

    公开(公告)号:CN118369669A

    公开(公告)日:2024-07-19

    申请号:CN202280081203.0

    申请日:2022-12-08

    Abstract: 本公开涉及一种用于设计处理器(20)的方法和一种计算机实施的神经网络。该方法包括获得输入数据和对应的基准真相目标数据并且将输入数据提供给处理器(20),以在给定输入数据的情况下输出对目标数据的第一预测。该方法进一步包括:将由处理器模块(21:1,21:2,……,21:n‑1)输出的潜在变量提供给监督器模块(22:1,22:2,22:3,……,22:n‑1),该监督器模块基于潜在变量来输出对目标数据的第二预测;以及通过将这些对目标数据的预测与基准真相目标数据进行比较来确定第一损失度量和第二损失度量。该方法进一步包括基于第一损失度量和第二损失度量来训练处理器(20)和监督器模块(22:1,22:2,22:3,……,22:n‑1),并且通过移除、替换和添加处理器模块中的至少一项操作来调整处理器。

    针对伪影和失真的基于深度学习的语音增强的稳健性/性能改善

    公开(公告)号:CN117083672A

    公开(公告)日:2023-11-17

    申请号:CN202280020155.4

    申请日:2022-03-17

    Abstract: 描述了一种处理音频信号的方法。所述方法包括:第一步骤,用于对音频信号的第一分量应用增强和/或对音频信号的第二分量相对于第一分量应用抑制;以及第二步骤,即通过将基于深度学习的模型应用于第一步骤的输出来修改第一步骤的输出,以在感知上改善音频信号的第一分量。还描述了一种用于执行所述方法的装置以及对应的程序和计算机可读存储介质。

    用于基于卷积神经网络的语音源分离的方法和装置

    公开(公告)号:CN114341979A

    公开(公告)日:2022-04-12

    申请号:CN202080035468.8

    申请日:2020-05-13

    Abstract: 本文描述了一种基于卷积神经网络(CNN)的语音源分离的方法,该方法包括以下步骤:(a)提供原始带噪语音信号的时频变换的多个帧;(b)将所述多个帧的时频变换输入到具有多个并行卷积路径的聚合多尺度CNN中;(c)通过每个并行卷积路径从输入的所述多个帧的时频变换中提取并输出特征;(d)获得并行卷积路径的输出的聚合输出;和(e)基于聚合输出生成用于从原始带噪语音信号中提取语音的输出掩码。本文还描述了一种用于基于CNN的语音源分离的装置以及相应的计算机程序产品,计算机程序产品包括具有指令的计算机可读存储介质,所述指令在由具有处理能力的设备执行时适于执行所述方法。

Patent Agency Ranking