基于生成对抗网络的语音唤醒方法、装置及存储介质

    公开(公告)号:CN117690432A

    公开(公告)日:2024-03-12

    申请号:CN202311846228.8

    申请日:2023-12-27

    Abstract: 本申请公开了一种基于生成对抗网络的语音唤醒方法、装置、存储介质、电子设备及计算机程序产品,该方法包括:获取待识别的目标语音数据;对目标语音数据进行声学特征提取,得到目标声学特征;将目标声学特征输入语音识别模型中进行处理,语音识别模型包括解码器和已训练的生成对抗网络,生成对抗网络包括生成器和第一判别器,生成器用于根据目标声学特征生成目标编码特征;第一判别器用于根据目标编码特征输出第一判别结果;解码器用于根据预设唤醒词对目标编码特征进行解码,并输出解码分数;根据第一判别结果和解码分数,进行车载语音系统的唤醒操作,从而无需用户手动操作即可唤醒车载语音系统,简化了唤醒流程,用户体验感好。

    一种图像修复方法、装置、设备及存储介质

    公开(公告)号:CN117474807A

    公开(公告)日:2024-01-30

    申请号:CN202311819869.4

    申请日:2023-12-27

    Abstract: 本发明提供了一种图像修复方法、装置、设备及存储介质,图像修复方法包括:获取待修复图像以及与待修复图像相关的音频;获取能够表征音频的整个音频信息的音频特征,作为目标音频特征;利用目标音频特征,对待修复图像进行修复,得到待修复图像对应的修复后图像。本发明提供的图像修复方法可利用与待修复图像相关的音频的信息对待修复图像中受损的图像信息进行补偿,从而实现真正意义上的受损补偿,本发明提供的图像修复方法具有较好的修复效果。

    音频处理方法、装置、电子设备和存储介质

    公开(公告)号:CN117037842A

    公开(公告)日:2023-11-10

    申请号:CN202310997762.2

    申请日:2023-08-07

    Abstract: 本发明提供一种音频处理方法、装置、电子设备和存储介质,方法包括:提取待处理音频的音频特征,并将音频特征作为待处理音频所对应的时频图像,提取时频图像的图像特征;基于图像特征,在连续的多个时间窗口上分别进行概率分布预测,得到待处理音频在每个时间窗口上的概率分布预测结果;基于每个时间窗口上的概率分布预测结果,确定待处理音频的音频处理结果。本发明提供的方法、装置,将音频特征作为时频图像,提取时频图像的图像特征,基于图像特征,在连续的多个时间窗口上分别进行概率分布预测,得到在每个时间窗口上的概率分布预测结果,实现了全面的特征提取,时间视野充足和丰富的概率预测,进而大大提升了进行音频处理的准确性。

    语音识别、语音识别模型训练方法、装置、介质及设备

    公开(公告)号:CN116013257A

    公开(公告)日:2023-04-25

    申请号:CN202211637702.1

    申请日:2022-12-16

    Abstract: 本申请实施例公开了一种语音识别、语音识别模型训方法、装置、存储介质及设备,该方法包括:通过在语音识别模型的编码网络模块中加入混合专家网络和嵌入模块,利用嵌入模块对目标语音数据的目标声学特征序列进行语音特征提取处理,以得到目标语音嵌入特征,将目标语音嵌入特征和目标声学特征序列输入至混合专家网络的神经网络模块中进行编码处理,使得混合专家网络的神经网络模块中可以得到与语言相关的特征和目标声学特征序列,提高混合专家网络的神经网络模块的输出结果的准确性,将输出结果输入至解码网络模块中进行解码处理,以得到目标语音数据的识别文本,可提高各种语言混说场景中的语音识别的准确率。

    音频数据的处理方法、装置、电子设备及计算机存储介质

    公开(公告)号:CN111145778B

    公开(公告)日:2023-04-04

    申请号:CN201911193451.0

    申请日:2019-11-28

    Abstract: 本申请实施例公开了一种音频数据的处理方法、装置、电子设备及计算机存储介质,方法包括:检测到音频拼接指令;确定待拼接的N段原始音频特征序列,N为大于等于2的整数;根据所述N段原始音频特征序列生成参考音频特征序列,所述参考音频特征序列包括所述N段原始音频特征序列的全部音频帧;根据预设策略更新所述参考音频特征序列中的音频帧,得到目标音频特征序列。实施本申请实施例有利于提升拼接处的音频数据的完整性,使拼接处的音频过度更加自然。

Patent Agency Ranking