一种改进多分辨率残差U型网络的语音增强方法

    公开(公告)号:CN113707164A

    公开(公告)日:2021-11-26

    申请号:CN202111026177.5

    申请日:2021-09-02

    Abstract: 一种深度神经网络,特别涉及一种改进多分辨率残差U型网络语音增强方法,为使得传统的多分辨率残差U型网络更加适用于时频域上的语音增强任务,针对其在解码阶段恢复出低信噪比下的语音细节的能力弱、容易造成语音特征丢失的问题进行改进,同时改变了卷积核的大小以适应语音信号转化到时频域后通常得到的语音特征图的尺寸是宽度远大于高度的特点,属于语音增强领域。本发明包括:S1、将纯净和带噪语音通过短时傅里叶变换得到两种语音信号的幅度谱;S2、以带噪语音幅度谱作为网络的输入,纯净语音幅度谱作为训练目标;通过改进的多分辨率残差U型网络拟合网络输入与训练目标之间的非线性关系,进而得到基于改进的多分辨率残差U型网络的语音增强模型;S3、通过STFT获取带噪语音的幅度谱;将其通过改进的多分辨率残差U型网络模型,即可得到目标语音的幅度谱;S4、将幅度谱与带噪语音相位结合,进行波形重建,重建后即可得到增强语音。

    一种语音中瞬态噪声的抑制方法

    公开(公告)号:CN113593590A

    公开(公告)日:2021-11-02

    申请号:CN202110835134.5

    申请日:2021-07-23

    Abstract: 一种深度复值U‑Net网络的瞬态噪声抑制方法,解决了传统方法在低信噪比下语音可懂度低、语音信号失真大的问题,属于语音增强领域。本发明包括:根据时频域语音信号,通过语音存在概率、阈值确定瞬态噪声所在时间段;建立改进的深度复值U‑Net网络的瞬态噪声抑制模型,改进的深度复值U‑Net网络模型总共有十一个卷积块,五个编码块,五个解码块,一个专注力块;最后将得到的瞬态噪声时域段送入到深度复值U‑Net网络模型中进行增强,然后把得到的增强结果插回到原序列中得到增强语音;本方法把深度学习应用于瞬态噪声的抑制,极大地提高了语音的可懂度。

    基于复杂声传播环境下的水下作战效能评估方法

    公开(公告)号:CN118520627A

    公开(公告)日:2024-08-20

    申请号:CN202310128023.X

    申请日:2023-02-17

    Abstract: 本申请属于军事技术基础科学领域,提供了一种基于复杂声传播环境下的水下作战效能评估方法,所述方法包括:将传播损失作为探测过程中的主要影响因素,建立一种考虑水文环境的水声传播模型;充分发挥无人军事设备在海上作战的潜能,提出加入海、陆、空全方位的无人作战系统。以时间步长为基础对作战系统进行建模,模型具有实时性。采用蒙特卡洛方法对不同作战系统进行水下作战效能评估。本发明构建的加入无人集群对抗方案比基础航母编队方案提升至少10%的航母存活概率。证明无人集群方案能够大幅提升搜索效率,对引入无人集群到实际的反潜作战具有参考意义。

    一种视听跨模态融合语音分离方法

    公开(公告)号:CN116469404A

    公开(公告)日:2023-07-21

    申请号:CN202310430709.4

    申请日:2023-04-20

    Abstract: 目前的视听语音分离模型基本是将视频和音频特征进行简单拼接,视觉信息未被充分利用,分离效果不理想。本发明充分考虑视觉和音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(ConvolutionalTime‑domainAudioSeparationnetwork,Conv‑TasNet)和双路径递归神经网络(Dual‑PathRecurrentNeuralNetwork,DPRNN),提出时域视听跨模态融合语音分离(Conv‑AudiovisualSpeechSeparation,Conv‑AVSS)模型。该模型通过音频编码器与视觉编码器获得音频特征与唇部特征,采用多头注意力机制将视听特征进行跨模态融合,并将其通过DPRNN分离网络,获得不同说话者的分离语音。利用PESQ、STOI及SDR评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离二、三或四位说话者的混合语音时,本方法与传统分离网络相比,SDR提高量均在1.87dB以上,最高可达2.29dB。这表明了本方法的有效性。

    一种红外和可见光图像融合网络
    6.
    发明公开

    公开(公告)号:CN119784610A

    公开(公告)日:2025-04-08

    申请号:CN202411981668.9

    申请日:2024-12-31

    Abstract: 本发明公开了一种红外和可见光图像融合网络,涉及图像融合领域。本发明包括包括双分支特征编码单元、融合单元和图像重构单元,所述双分支特征编码单元包括多尺度边缘梯度模块、显著密集残差模块和空间偏置模块,红外和可见光图像经多尺度边缘梯度模块得到增强的纹理特征,所述红外图像经显著密集残差模块得到增强的显著特征,所述增强的纹理特征和所述强的显著特征经空间偏置模块融合全局信息和局部信息,经融合单元处理后的特征输入图像重构单元中,对融合后的特征信息进行重构,输出最终的融合图像。本发明能够更好地保持图像边缘和目标细节的清晰性,提供更高的对比度和视觉清晰度。

    基于深度学习的水轮机状态预测方法

    公开(公告)号:CN118643725A

    公开(公告)日:2024-09-13

    申请号:CN202310234996.1

    申请日:2023-03-13

    Abstract: 本发明公开了一种基于深度学习的水轮机状态预测方法,所述方法包括:用果蝇优化算法(Fly optimizationalgorithm,FOA)优化变分模态分解(Variationalmodedecomposition,VMD)的本征模态函数(IntrinsicModeFunction,IMF)个数K和惩罚因子,用短时傅里叶变换(Short‑timeFouriertransform,STFT)验证参数优化的准确性,用参数优化的VMD分解水轮机信号;用峭度准则重构水轮机信号,用连续小波变换(Continuouswavelettransform,CWT)把重构水轮机信号转换为二维特征频谱图,再通过直方图均衡化对二维特征频谱图进行特征增强,获得特征增强之后的频谱图;最后,对深度残差网络(Deepresidualnetwork,ResNet)的卷积模块、残差模块、激活函数进行改进以获得改进的深度残差网络,再把改进的深度残差网络和迁移学习(Transferlearning,TL)结合起来,得到水轮机状态预测模型。用从国内某大电机研究所的混流式水轮机采集的水轮机数据做实验,确定了本发明公开的一种基于深度学习的水轮机状态预测方法,预测性能较好。

    一种基于卷积神经网络的适用于真实场景图像的超分辨率重构方法

    公开(公告)号:CN117196940A

    公开(公告)日:2023-12-08

    申请号:CN202310908104.1

    申请日:2023-07-23

    Abstract: 本发明公开了一种基于卷积神经网络的适用于真实场景图像的超分辨率重构方法,所述方法包括:对于输入的低分辨率图像,通过树状结构形成多分支超分辨率重构网络得到多个重构结果,采用空间频率方法进行融合得到最终的超分辨重构结果。其中,树状多分支结构增强特征表现能力,进而丰富重构图像高频细节。分支采用双通道残差策略对基础块进行连接,允许更多低频特征通过,以及基础块融入了密集残差结构和注意力机制,可以在加深网络的同时使网络在通道和空间上进行全局信息自适应调整,因此提升网络的自适应能力和鲁棒性。本发明提供的方法训练出的模型在真实场景下有较好的表现能力,使重构出的高分辨率图像包含更多纹理细节。

    一种跨模态音视频融合语音分离方法

    公开(公告)号:CN116417008A

    公开(公告)日:2023-07-11

    申请号:CN202310403921.1

    申请日:2023-04-14

    Abstract: 本发明充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠密光流(Farneback)算法和U‑Net网络,提出跨模态融合的光流‑音视频语音分离(Flow‑AVSS)模型。该模型通过Farneback算法和轻量级网络ShuffleNet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块(TCN)得到视觉特征,为充分利用到视觉信息,在进行特征融合时采用多头注意力机制,将视觉特征与音频特征进行跨模态融合,得到融合音视频特征,最后融合音视频特征经过U‑Net分离网络得到分离语音。利用PESQ、STOI及SDR评价指标,在AVspeech数据集进行实验测试。本方法与纯语音分离网络和仅采用特征拼接的音视频分离网络相比,性能上分别提高了2.23dB和1.68dB。由此表明,采用跨模态注意力进行特征融合,能更加充分利用各个模态相关性,增加的唇部运动特征,能有效提高视频特征的鲁棒性,提高分离效果。

    基于波束形成的长短时记忆网络语音分离算法

    公开(公告)号:CN113724727A

    公开(公告)日:2021-11-30

    申请号:CN202111035383.2

    申请日:2021-09-02

    Abstract: 在利用深度学习方式进行语音分离的领域,多路人声信号分离较为复杂,现阶段所使用的分离方式多是基于频谱映射方式,没有有效利用语音信号空间信息。针对此问题,本发明结合波束形成算法和LSTM网络提出了一种波束形成LSTM算法,通过超指向波束形成算法得到3个不同方向上的波束,然后提取每一波束中频谱幅度特征,并构建神经网络预测掩蔽值,得到待分离语音信号频谱并重构时域信号,实现语音分离,该算法充分利用了语音信号空间特征和信号频域特征。60度方向该算法与IBM‑LSTM网络相比,客观语音质量评估(PESQ)提高了0.59,短时客观可懂(STOI)指标提高了0.06,信噪比(SDR)提高了1.13dB,另外两个方向上,实验结果同样证明了该算法较IBM‑LSTM算法和RNN算法具有更好分离性能。

Patent Agency Ranking