一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法

    公开(公告)号:CN107945811A

    公开(公告)日:2018-04-20

    申请号:CN201710992311.4

    申请日:2017-10-23

    Applicant: 北京大学

    CPC classification number: G10L19/02 G10L19/24 G10L21/038

    Abstract: 本发明公开了一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法。本发明的生成式对抗网络训练方法为:对音频信号进行瞬态信号检测;然后根据检测结果分别对其进行MDCT变换,将得到的频谱作为真数据;对频谱进行分带,并计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化、反量化;将分带得到的低频频谱输入生成网络GAN,生成高频频谱;利用反量化的高频能量包络修正生成的高频频谱,得到最终生成的高频频谱;将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱,将该全带的生成频谱作为假数据;将得到真数据、假数据作为判别网络D的输入,训练生成式对抗网络。本发明训练的网络易收敛。

    一种基于正交解相关技术的参数立体声编码、解码方法

    公开(公告)号:CN103700372B

    公开(公告)日:2016-10-05

    申请号:CN201310745761.5

    申请日:2013-12-30

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于正交解相关技术的参数立体声编码、解码方法。本编码方法:1)将输入的左声道、右声道时域信号分别变换到复频域,得到两复频域信号L和R;2)对L和R输出为一个下混信号M;3)利用L和R估算出边信息,并对所述边信息进行融合量化;所述边信息包括声道内互相关系数ICC、声道间强度差IID和旋转方位信息RD;4)对M时域反变换并编码输出;将边信息压缩编码输出。解码方法:将输入的时域下混信号变换到复频域输出信号M;对输入的边信息进行解码;根据RD求解一与M幅值相等且正交的输出信号D;根据ICC、IID计算旋转矩阵H;利用H、M及D得到复频域信号L和R变化到时域输出。本发明大大提高了解码速度。

    一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法

    公开(公告)号:CN107945811B

    公开(公告)日:2021-06-01

    申请号:CN201710992311.4

    申请日:2017-10-23

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法。本发明的生成式对抗网络训练方法为:对音频信号进行瞬态信号检测;然后根据检测结果分别对其进行MDCT变换,将得到的频谱作为真数据;对频谱进行分带,并计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化、反量化;将分带得到的低频频谱输入生成网络GAN,生成高频频谱;利用反量化的高频能量包络修正生成的高频频谱,得到最终生成的高频频谱;将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱,将该全带的生成频谱作为假数据;将得到真数据、假数据作为判别网络D的输入,训练生成式对抗网络。本发明训练的网络易收敛。

    一种基于声道间传递函数的参数立体声编码、解码方法

    公开(公告)号:CN105405445A

    公开(公告)日:2016-03-16

    申请号:CN201510915572.7

    申请日:2015-12-10

    Applicant: 北京大学

    CPC classification number: G10L19/008 G10L19/04

    Abstract: 本发明公开了一种基于声道间传递函数的参数立体声编码、解码方法。本发明编码方法为:1)编码端利用左右声道信号生成下混信号;2)将输入的下混信号和一单声道信号分别分帧后,提取每一帧的声道间传递函数系数;然后将提取的传递函数系数拼成一二维矩阵;其中,所述单声道信号为左声道信号或右声道信号;3)对该二维矩阵依次进行二维压缩、游程编码、熵编码,将该二维矩阵中的系数压缩生成边信息,然后与下混信号形成比特流。本发明保留了信号的低高频空间信息,同时实现了帧内和帧间的压缩。

    基于理想软阈值掩模IRM的多音频对象编、解码方法

    公开(公告)号:CN106373583B

    公开(公告)日:2019-05-21

    申请号:CN201610861273.4

    申请日:2016-09-28

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于理想软阈值掩模IRM的多音频对象编、解码方法。本编码方法为:1)编码端对输入的各音频对象时间信息的元数据以及音频对象信息进行预处理模,形成通道形式的各音频对象;2)编码端将各通道形式的音频对象生成一个下混信号,然后根据该下混信号和第i个通道形式的音频对象进行软阈值掩模提取,生成第i个通道形式的音频对象的掩模MASKi;3)编码端针对所有音频对象的掩模MASK进行压缩,生成掩模码流;编码端将该下混信号经过编码压缩得到的编码结果、所述元数据和各所述掩模码流进行合成,得到合成码流输出。本发明充分利用了音频自身稀疏性的特点,压缩更有针对性并且更加有效。

    一种基于声道间传递函数的参数立体声编码、解码方法

    公开(公告)号:CN105405445B

    公开(公告)日:2019-03-22

    申请号:CN201510915572.7

    申请日:2015-12-10

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于声道间传递函数的参数立体声编码、解码方法。本发明编码方法为:1)编码端利用左右声道信号生成下混信号;2)将输入的下混信号和一单声道信号分别分帧后,提取每一帧的声道间传递函数系数;然后将提取的传递函数系数拼成一二维矩阵;其中,所述单声道信号为左声道信号或右声道信号;3)对该二维矩阵依次进行二维压缩、游程编码、熵编码,将该二维矩阵中的系数压缩生成边信息,然后与下混信号形成比特流。本发明保留了信号的低高频空间信息,同时实现了帧内和帧间的压缩。

    基于理想软阈值掩模IRM的多音频对象编、解码方法

    公开(公告)号:CN106373583A

    公开(公告)日:2017-02-01

    申请号:CN201610861273.4

    申请日:2016-09-28

    Applicant: 北京大学

    CPC classification number: G10L19/008

    Abstract: 本发明公开了一种基于理想软阈值掩模IRM的多音频对象编、解码方法。本编码方法为:1)编码端对输入的各音频对象时间信息的元数据以及音频对象信息进行预处理模,形成通道形式的各音频对象;2)编码端将各通道形式的音频对象生成一个下混信号,然后根据该下混信号和第i个通道形式的音频对象进行软阈值掩模提取,生成第i个通道形式的音频对象的掩模MASKi;3)编码端针对所有音频对象的掩模MASK进行压缩,生成掩模码流;编码端将该下混信号经过编码压缩得到的编码结果、所述元数据和各所述掩模码流进行合成,得到合成码流输出。本发明充分利用了音频自身稀疏性的特点,压缩更有针对性并且更加有效。

    一种基于正交解相关技术的参数立体声编码、解码方法

    公开(公告)号:CN103700372A

    公开(公告)日:2014-04-02

    申请号:CN201310745761.5

    申请日:2013-12-30

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于正交解相关技术的参数立体声编码、解码方法。本编码方法:1)将输入的左声道、右声道时域信号分别变换到复频域,得到两复频域信号L和R;2)对L和R输出为一个下混信号M;3)利用L和R估算出边信息,并对所述边信息进行融合量化;所述边信息包括声道内互相关系数ICC、声道间强度差IID和旋转方位信息RD;4)对M时域反变换并编码输出;将边信息压缩编码输出。解码方法:将输入的时域下混信号变换到复频域输出信号M;对输入的边信息进行解码;根据RD求解一与M幅值相等且正交的输出信号D;根据ICC、IID计算旋转矩阵H;利用H、M及D得到复频域信号L和R变化到时域输出。本发明大大提高了解码速度。

Patent Agency Ranking