一种语音通信系统及方法
    1.
    发明公开

    公开(公告)号:CN117544603A

    公开(公告)日:2024-02-09

    申请号:CN202311498981.2

    申请日:2023-11-08

    Abstract: 本申请公开了一种语音通信系统及方法,涉及语音通信技术领域。该系统包括:第一电子设备和第二电子设备;第一电子设备,用于获取语音信号的波形;通过短时傅里叶变换,从语音信号的波形中提取第一对数幅度谱和第一相位谱;根据第一对数幅度谱和第一相位谱,生成连续码;对连续码进行离散化处理,得到索引向量;将索引向量发送至第二电子设备;第二电子设备,用于根据索引向量,生成量化码;根据量化码,生成第二对数幅度谱和第二相位谱;通过逆短时傅里叶变换,将第二对数幅度谱和第二相位谱恢复为语音信号的波形。由此,即可在低编码比特率存储或传输语音信号的同时,保证解码出的语音信号性能较好,从而提高了语音通信的效率和还原度。

    基于短时谱一致性的神经网络声码器训练方法

    公开(公告)号:CN112634914B

    公开(公告)日:2024-03-29

    申请号:CN202011482467.6

    申请日:2020-12-15

    Inventor: 艾杨 凌震华

    Abstract: 本发明公开了一种基于短时谱一致性的神经网络声码器训练方法,包括:使用自然声学特征和自然对数幅度谱训练幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器;将训练后的幅度谱预测器和相位谱预测器进行连接,通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器;本发明提供的神经网络声码器训练方法,首先分别训练幅度谱预测器和相位谱预测器,最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器,能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题,进而提高合成语音的质量。

    一种声码器的构建方法、语音合成方法及相关装置

    公开(公告)号:CN116524894A

    公开(公告)日:2023-08-01

    申请号:CN202310081092.X

    申请日:2023-01-16

    Inventor: 艾杨 凌震华

    Abstract: 本申请实施例公开了一种声码器的构建方法、语音合成方法及相关装置,先获取目标声学特征,并将目标声学特征分别输入到幅度谱预测模型和相位谱预测模型中得到第一对数幅度谱和第一相位谱,第一对数幅度谱包括第一幅度谱。接着根据第一幅度谱和第一相位谱进行计算得到第一重构短时谱,并对第一重构短时谱预处理得到第一重构语音波形。计算幅度谱损失、相位谱损失、短时谱损失、波形损失,并根据以上损失计算修正参数。再根据修正参数修正幅度谱预测模型和相位谱预测模型得到幅度谱预测器和相位谱预测器。本申请的幅度谱预测器和相位谱预测器可以实现平行直接预测幅度谱和相位谱,提高了语音生成的效率,降低了整体运算的复杂度。

    基于短时谱一致性的神经网络声码器训练方法

    公开(公告)号:CN112634914A

    公开(公告)日:2021-04-09

    申请号:CN202011482467.6

    申请日:2020-12-15

    Inventor: 艾杨 凌震华

    Abstract: 本发明公开了一种基于短时谱一致性的神经网络声码器训练方法,包括:使用自然声学特征和自然对数幅度谱训练幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器;将训练后的幅度谱预测器和相位谱预测器进行连接,通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器;本发明提供的神经网络声码器训练方法,首先分别训练幅度谱预测器和相位谱预测器,最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器,能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题,进而提高合成语音的质量。

    音频处理方法、装置、存储介质和电子设备

    公开(公告)号:CN118136030A

    公开(公告)日:2024-06-04

    申请号:CN202410438079.X

    申请日:2024-04-11

    Abstract: 本申请公开了一种音频处理方法、装置、存储介质和电子设备,该方法为:对第一波形进行改进离散余弦变换,以获得第一频谱,第一波形为目标音频压缩前的原始波形;通过将第一频谱输入至预先训练所得的编解码模型,得到编解码模型输出的第二频谱;对第二频谱进行逆改进离散余弦变换,以获得第二波形,第二波形为目标音频解压缩后的重建波形。该方法基于编解码模型将第一频谱作为编码、量化和解码的对象,以获得第二频谱,最后通过对第二频谱进行逆改进离散余弦变换,得到目标音频解压缩后的重建波形,能够在高采样率和低比特率场景下实现高质量的音频编解码,并且编解码模型具有模型参数小、训练速度快、生成速度快的特点。

    一种音频处理方法、装置及电子设备

    公开(公告)号:CN119964584A

    公开(公告)日:2025-05-09

    申请号:CN202510170853.8

    申请日:2025-02-17

    Abstract: 本发明公开了一种音频处理方法、装置及电子设备,涉及音频处理领域,获取音频波形,将音频波形输入配置的音频处理模型,通过音频处理模型中的因果编码器将音频波形的MDCT谱编码为一个连续码,并输入至残差标量向量量化器进行量化处理得到量化结果,将量化结果输入因果解码器解码出MDCT谱,并将MDCT谱通过逆MDCT恢复为音频波形。本申请将音频波形的MDCT谱作为音频波形的参数特征并用于编码、量化和解码,实现在提高频域分辨率的同时降低解码阶段的计算复杂度,并且音频处理模型中使用的因果模型结构相对于传统非因果模型结构而言无需输入任何未来信息,因此可大幅降低延迟,提高音频处理效率,满足实时通信场景的使用需求。

    一种语音波形的扩展方法、装置、设备及存储介质

    公开(公告)号:CN117877498A

    公开(公告)日:2024-04-12

    申请号:CN202410039994.1

    申请日:2024-01-10

    Abstract: 本申请公开了一种语音波形的扩展方法、装置、设备及存储介质。获取待扩展语音波形,先将待扩展语音波形进行香农插值,并将插值后的待扩展语音波形进行初步变换得到第一短时复数谱。对第一短时复数谱分别进行幅度计算和相位计算得到第一初步对数幅度谱和第一初步相位谱。再将第一初步对数幅度谱输入到幅度流扩展器得到扩展对数幅度谱,将第一初步相位谱输入到相位流扩展器得到扩展相位谱。然后将扩展对数幅度谱和扩展相位谱组合成扩展复数谱。将扩展复数谱进行逆向变换得到扩展语音波形。本申请通过分别处理幅度和相位信息,并利用幅度流扩展器和相位流扩展器增强高频信息,提高了恢复语音信号高频分量的效率,同时也提高了重构语音波形的质量。

    一种长帧移语音相位谱预测方法及装置

    公开(公告)号:CN116705042A

    公开(公告)日:2023-09-05

    申请号:CN202310737506.X

    申请日:2023-06-19

    Abstract: 本发明提供一种长帧移语音相位谱预测方法及装置,涉及语音信号处理技术领域,该方法包括:基于无损插值技术,将长帧移语音对数幅度谱转换为短帧移语音对数幅度谱;使用短帧移语音对数幅度谱进行相位谱预测,得到短帧移语音相位谱;根据短帧移语音相位谱,生成长帧移语音相位谱。本发明能够提高长帧移语音相位谱的预测结果准确度。

    语音增强方法及装置
    9.
    发明公开

    公开(公告)号:CN116386653A

    公开(公告)日:2023-07-04

    申请号:CN202310573048.0

    申请日:2023-05-17

    Abstract: 本申请公开了一种语音增强方法及装置,通过获取带噪语音波形的带噪相位谱及带噪幅度谱,利用预设的语音增强模型处理带噪相位谱及带噪幅度谱,得到增强相位谱及增强幅度谱,根据增强相位谱及增强幅度谱计算得到增强语音波形,语音增强模型被配置为基于带噪相位谱及带噪幅度谱预测增强伪实部谱及增强伪虚部谱,预测增强幅度谱,基于预设的模拟相位计算公式对增强伪实部谱及增强伪虚部谱进行计算,得到值域区间限制在主值区间内的增强相位谱的内部状态表示,避免了由于相位的卷绕特性导致无法预测得到增强相位谱的问题,使得根据增强相位谱及增强幅度谱计算得到的增强语音波形质量高、信噪比高,极大地改善了对带噪语音波形的增强效果。

    利用抗卷绕损失训练的平行估计架构网络预测相位的方法

    公开(公告)号:CN115862673A

    公开(公告)日:2023-03-28

    申请号:CN202211489291.6

    申请日:2022-11-25

    Inventor: 艾杨 凌震华

    Abstract: 本申请提供一种利用抗卷绕损失训练的平行估计架构网络预测相位的方法,方法包括,在训练过程中,通过待训练的神经网络中平行的两个线性卷积层,以及相位计算单元,模拟由短时复数谱的实虚部计算相位谱的过程,并将预测的相位值限制在主值区间内,实现卷绕相位谱的预测,并且训练所用的抗卷绕损失包含通过抗卷绕函数激活的瞬时相位误差、群延时误差和瞬时角频率误差,避免相位卷绕造成的误差扩大问题。训练结束后再用训练好的相位预测神经网络处理待预测语音信号的对数幅度谱,获得卷绕相位谱。本方案通过神经网络直接预测语音信号的卷绕相位谱,并通过计算损失时引入抗卷绕函数解决训练时相位卷绕造成的误差扩大问题,具有较高的效率和准确度。

Patent Agency Ranking