-
公开(公告)号:CN116741193B
公开(公告)日:2023-11-14
申请号:CN202310999362.5
申请日:2023-08-09
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L21/0208 , G10L21/0264 , G10L17/02 , G10L25/30 , G10L25/21 , G10L25/24 , G06N3/0442 , G06N3/0464 , G06N3/08
摘要: 本申请公开一种语音增强网络的训练方法,包括:获取训练集,训练集包括多个训练样本,训练样本包括样本参考语音、样本比对语音和混合语音;对样本参考语音进行声纹提取,得到样本声纹向量;对混合语音进行音频特征提取,得到样本音频特征;由语音增强网络基于样本声纹向量和样本音频特征进行增强处理,输出针对样本发声对象的预测音频特征;根据预测音频特征和样本比对语音对应的比对音频特征,确定语音增强网络的目标损失;基于目标损失迭代更新语音增强网络的权重参数,直至达到训练结束条件。本申请应用人工智能技术,能够基于源自同一发声对象的样本参考语音和样本比对语音,训练出用于抑制干扰人声的语音增强网络,有效提高语音增强的质量。
-
公开(公告)号:CN112750461B
公开(公告)日:2023-08-01
申请号:CN202010121470.9
申请日:2020-02-26
申请人: 腾讯科技(深圳)有限公司
摘要: 本申请提供了一种语音通信优化方法、装置、电子设备及可读存储介质,包括:每间隔预设时长获取目标语音片段,并对每一目标语音片段进分帧得到多帧语音信号;获取每一帧语音信号以及历史语音信号的特征向量;将每一帧语音信号以及历史语音信号的特征向量输入预设GRU模型,并基于输出结果确定该帧语音信号是否包含混响;若该目标语音片段中包含混响的语音信号的帧数占总帧数的比例不小于第一预设门限值,则在获取到下一目标语音片段之前对语音进行混响消除。由于GRU模型的输入中除了包含待检测语音信号的特征向量外,还包含了多帧历史语音信号的特征向量,使得GRU模型在计算过程中综合了历史语音信号的特征,提高了单帧语音信号的检测准确率。
-
公开(公告)号:CN110379412B
公开(公告)日:2022-06-17
申请号:CN201910838192.6
申请日:2019-09-05
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L15/02 , G10L15/06 , G10L15/14 , G10L15/16 , G10L15/22 , G10L15/26 , G10L21/0208 , G10L21/0216 , G10L25/24
摘要: 本申请实施例提供了一种语音处理的方法、装置、电子设备及计算机可读存储介质,该方法包括:采集待处理的语音信息;根据待处理的语音信息,确定第一语音特征和第一文本瓶颈bottleneck特征;根据第一语音特征和第一文本bottleneck特征,确定第一组合特征向量;将第一组合特征向量输入至训练后的单向长短期记忆LSTM模型,对第一组合特征向量进行语音处理,得到处理后的语音信息。该方法实现了基于第一文本瓶颈bottleneck特征进行语音处理,提高了语音降噪的效率和语音质量。
-
公开(公告)号:CN110675886A
公开(公告)日:2020-01-10
申请号:CN201910955139.4
申请日:2019-10-09
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L21/013 , G10L25/03 , G10L25/24 , G10L25/30 , G10H1/36
摘要: 本申请实施例提供了一种音频信号处理方法、装置、电子设备及存储介质,涉及信息处理技术领域。该方法包括:获取用户所录制的待处理音频信号;提取待处理音频信号的音频特征;获取待处理音频信号的原声音频信号的标准音频特征,原声音频信号包括原声声音信号和背景音频信号;基于待处理音频信号的音频特征和标准音频特征,对待处理音频信号进行修正处理,得到修正后的音频信号。本申请技术方案利用易于获取的原声音频信号的标准音频特征,对待处理音频信号进行修正处理,从而实现了对用户所录制的音频的美化,不依赖干声模版,扩大了声音美化技术的适用范围,避免了人工标注出现的错误,提升了音频美化的效果。
-
公开(公告)号:CN110175298A
公开(公告)日:2019-08-27
申请号:CN201910295641.7
申请日:2019-04-12
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06F16/9536 , G06Q50/00
摘要: 本申请涉及一种用户匹配方法,包括:获取与目标用户对应的目标生物特征数据和目标用户偏好数据,以及与候选用户对应的候选生物特征数据和候选用户偏好数据;依据所述目标生物特征数据和所述候选用户偏好数据,确定所述目标用户对于所述候选用户的第一匹配度;依据所述候选生物特征数据和所述目标用户偏好数据,确定所述候选用户对于所述目标用户的第二匹配度;当由所述候选用户的第一匹配度和第二匹配度所确定的综合匹配度满足匹配条件时,将所述候选用户确定为所述目标用户对应的匹配用户。本申请提供的方案可以提高用户匹配的准确率。
-
公开(公告)号:CN112750462B
公开(公告)日:2024-06-21
申请号:CN202010787033.0
申请日:2020-08-07
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L25/51 , G10L25/30 , G06F18/214 , G06F18/243 , G06N3/0464
摘要: 本申请实施例公开了一种音频处理方法、装置及设备,该音频处理方法包括:获取目标音频的音频特征;获取声学场景分类模型,声学场景分类模型包括N个音频识别模型,一个音频识别模型对应一个识别角度;N个音频识别模型用于从N个识别角度对M种声学场景进行识别,N个音频识别模型是根据各个音频识别模型对应的识别角度按需对目标神经网络架构进行N种变种形成的N个不同类型的网络模型,N为大于1的整数,M为正整数;分别采用N个音频识别模型对目标音频的音频特征进行声学场景的识别处理,得到目标音频的N个识别结果;对N个识别结果进行融合,得到目标音频所属的目标声学场景。可以提升声学场景分类的准确率,提高声学场景分类效果。
-
公开(公告)号:CN110556123B
公开(公告)日:2024-01-19
申请号:CN201910883374.5
申请日:2019-09-18
申请人: 腾讯科技(深圳)有限公司
摘要: 本申请实施例提供了一种频带扩展方法、装置、电子设备及计算机可读存储介质,该方法可以包括:确定待处理的窄带信号的低频频谱参数,将低频频谱参数输入至神经网络模型,基于神经网络模型的输出得到相关性参数,基于相关性参数和低频幅度谱,得到目标高频幅度谱;基于窄带信号的低频相位谱和目标高频幅度谱,得到高频频谱;基于低频频谱和高频频谱,得到频带扩展后的宽带信号。在本方案中,由于相关性参数可反应出高频部分与低频部分的相关性,则基于该相关性参数和低频幅度谱可实现对窄带信号的频带扩展,基于频带扩展得到的宽带信号,可以得到音色洪亮、音量较大的信号,使得用户有更好的听觉体验。
-
公开(公告)号:CN117153179A
公开(公告)日:2023-12-01
申请号:CN202210542501.7
申请日:2022-05-18
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L21/0208 , G10L21/0232 , G10L25/30
摘要: 本申请提供了一种音频处理模型训练方法和相关装置,涉及音频数据处理领域。其方法包括:首先,根据去噪音频序列生成混噪音频序列,再对混噪音频序列进行时频特征转换,生成音频特征序列;接着,将音频特征序列作为音频编码模型的输入,通过音频编码模型输出音频增强特征序列;然后,将音频增强特征序列作为线性网络层的输入,通过线性网络层输出聚类类型特征、去噪频域特征、噪音频域特征以及混响频域特征并且计算损失结果;最后,采用损失结果对音频编码模型以及线性网络层进行训练。本申请某一实施例提供的音频处理模型训练方法,通过在音频处理模型中增加了噪音子网络层以及混响子网络层,实现同时进行去噪和去混响的训练,提升训练效率。
-
公开(公告)号:CN117059068A
公开(公告)日:2023-11-14
申请号:CN202210495197.5
申请日:2022-05-07
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L15/02 , G10L15/06 , G10L21/0208
摘要: 本申请公开了一种语音处理方法,其特征在于,该方法包括:获取通话语音的初始语音特征;将所述初始语音特征输入至预先训练的语音增强模型,得到所述语音增强模型输出的目标语音特征,所述语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到;根据所述目标语音特征,计算出去除噪声和混响的目标语音。如此,通过深度聚类损失函数和掩码推断损失函数训练得到语音增强模型,可以更加准确地对初始语音特征中的噪声和混响进行去除,从而输出干净的目标语音特征以获取去除噪声和混响的目标语音,本申请实施例应用人工智能技术在降低模型计算资源的同时,有效地提升了语音增强的性能。
-
公开(公告)号:CN110675886B
公开(公告)日:2023-09-15
申请号:CN201910955139.4
申请日:2019-10-09
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L21/013 , G10L25/03 , G10L25/24 , G10L25/30 , G10H1/36
摘要: 本申请实施例提供了一种音频信号处理方法、装置、电子设备及存储介质,涉及信息处理技术领域。该方法包括:获取用户所录制的待处理音频信号;提取待处理音频信号的音频特征;获取待处理音频信号的原声音频信号的标准音频特征,原声音频信号包括原声声音信号和背景音频信号;基于待处理音频信号的音频特征和标准音频特征,对待处理音频信号进行修正处理,得到修正后的音频信号。本申请技术方案利用易于获取的原声音频信号的标准音频特征,对待处理音频信号进行修正处理,从而实现了对用户所录制的音频的美化,不依赖干声模版,扩大了声音美化技术的适用范围,避免了人工标注出现的错误,提升了音频美化的效果。
-
-
-
-
-
-
-
-
-