-
公开(公告)号:CN115116457A
公开(公告)日:2022-09-27
申请号:CN202210681816.X
申请日:2022-06-15
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L19/16 , G10L19/032
Abstract: 本申请提供了一种音频编码及解码方法、装置、设备、介质及程序产品;其中,音频编码方法包括:对音频信号进行分解处理,得到低频子带信号和高频子带信号;基于低频子带信号以及高频子带信号进行多个层次的特征提取处理,得到多个层次分别对应的子带信号特征;对每个层次对应的子带信号特征进行量化处理,得到子带信号特征的索引值;对子带信号特征的索引值进行编码处理,得到层次对应的码流;对多个层次分别对应的码流配置对应的传输优先级;其中,传输优先级与层次对应的码流的解码质量指标正相关。本申请能够灵活适用于不同网络带宽的应用场景,提升音频编解码的效率和质量。
-
公开(公告)号:CN118942470A
公开(公告)日:2024-11-12
申请号:CN202411348883.5
申请日:2022-06-15
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L19/16 , G10L19/032 , G10L25/18
Abstract: 本申请提供了一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:对音频信号进行子带分解处理,得到音频信号的低频子带信号以及高频子带信号;对低频子带信号进行特征提取处理,得到低频子带信号的低频特征;对高频子带信号进行高频分析处理,得到高频子带信号的高频特征;其中,高频特征的特征维度低于低频特征的特征维度;对低频特征进行量化编码处理,得到音频信号的低频码流,并对高频特征进行量化编码处理,得到音频信号的高频码流。通过本申请,能够提高音频编码效率。
-
公开(公告)号:CN115116457B
公开(公告)日:2024-10-01
申请号:CN202210681816.X
申请日:2022-06-15
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L19/16 , G10L19/032
Abstract: 本申请提供了一种音频编码及解码方法、装置、设备、介质及程序产品;其中,音频编码方法包括:对音频信号进行分解处理,得到低频子带信号和高频子带信号;基于低频子带信号以及高频子带信号进行多个层次的特征提取处理,得到多个层次分别对应的子带信号特征;对每个层次对应的子带信号特征进行量化处理,得到子带信号特征的索引值;对子带信号特征的索引值进行编码处理,得到层次对应的码流;对多个层次分别对应的码流配置对应的传输优先级;其中,传输优先级与层次对应的码流的解码质量指标正相关。本申请能够灵活适用于不同网络带宽的应用场景,提升音频编解码的效率和质量。
-
公开(公告)号:CN115116456B
公开(公告)日:2024-09-13
申请号:CN202210681365.X
申请日:2022-06-15
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L19/16 , G10L19/032 , G10L25/18
Abstract: 本申请提供了一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:对音频信号进行子带分解处理,得到音频信号的低频子带信号以及高频子带信号;对低频子带信号进行特征提取处理,得到低频子带信号的低频特征;对高频子带信号进行高频分析处理,得到高频子带信号的高频特征;其中,高频特征的特征维度低于低频特征的特征维度;对低频特征进行量化编码处理,得到音频信号的低频码流,并对高频特征进行量化编码处理,得到音频信号的高频码流。通过本申请,能够提高音频编码效率。
-
公开(公告)号:CN118098203A
公开(公告)日:2024-05-28
申请号:CN202211489360.3
申请日:2022-11-25
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请实施例公开了一种说话对象识别的方法、装置以及计算机可读存储介质,适用于人工智能,方法包括:获取说话对象识别的正样本训练数据和负样本训练数据。将正样本训练数据和负样本训练数据输入说话对象识别模型,以生成针对正样本训练数据和负样本训练数据的多个特征。通过说话对象识别模型对各个特征进行对比学习。当获取到待识别多媒体数据时,将待识别多媒体数据输入说话对象识别模型,通过说话对象识别模型生成说话对象识别特征,并基于说话对象识别特征输出待识别多媒体数据关联的待识别对象是否为目标对象的识别结果。采用本申请,可以提高说话对象识别效率,扩展结果客观性强,使用场景丰富,适用性强。
-
公开(公告)号:CN117133308A
公开(公告)日:2023-11-28
申请号:CN202210541480.7
申请日:2022-05-17
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L21/0272 , G10L25/30 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/084
Abstract: 本申请提供了一种语音分离模型训练方法、语音分离方法及装置,涉及语音处理技术领域,该方法包括:在任一次训练过程中,以训练样本的混合语音特征为编码器的输入,输出训练样本的隐层表征,训练样本为一条混合语音信号,混合语音信号为来自多个声音源的语音信号的融合信号,以训练样本的隐层表征为解码器的输入,依次输出训练样本的单个声音源的语音分离结果,根据每次训练过程所使用的训练样本和得到的训练样本的单个声音源的语音分离结果,对编码器的参数和解码器的参数进行调整,直到满足停止训练条件,将满足停止训练条件所确定的解码器和编码器输出为语音分离模型。从而,可实现对包含任意声音源的混合语音进行语音分离,应用范围不受限。
-
公开(公告)号:CN116913278A
公开(公告)日:2023-10-20
申请号:CN202311171159.5
申请日:2023-09-12
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请实施例公开了一种语音处理方法、装置、设备和存储介质,涉及人工智能和云技术,该方法包括:对待处理语音数据进行特征提取,得到待处理语音数据的目标语音表征信息;该目标语音表征信息包括待处理语音数据对应的语音内容向量和副语言向量,该副语言向量用于辅助识别待处理语音数据对应的文本信息;获取关于待处理语音数据的提示词,并对该语音内容向量、该副语言向量和该提示词进行融合处理,得到语音融合特征;对该语音融合特征进行语音转换处理,得到待处理语音数据对应的文本信息。采用本申请实施例,可以提升语音识别的准确性。
-
公开(公告)号:CN116687343A
公开(公告)日:2023-09-05
申请号:CN202210189721.6
申请日:2022-02-28
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请公开了一种用于辅助发声病变诊断的发音评估方法、装置及设备,属于计算机技术领域。所述方法包括:显示用于辅助发声病变诊断的发音评估界面,发音评估界面中显示有待评估语音的视觉提示信息;响应于录制操作,录制用户帐号针对待评估语音的发音数据;显示用于发声病变参考的评估结果界面,评估结果界面中显示有发音质量的评估得分,评估得分用于评估发音数据相较于健康发音数据的健康程度,健康发音数据是正常者针对待评估语音的发音数据。评估得分能够反映用户的发音质量,因此能够实现对用户进行发音评估,进而实现辅助发声病变诊断。在此过程中,无需依赖医疗设备以及人工判断,提升了发音评估的效率。
-
公开(公告)号:CN115116456A
公开(公告)日:2022-09-27
申请号:CN202210681365.X
申请日:2022-06-15
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L19/16 , G10L19/032 , G10L25/18
Abstract: 本申请提供了一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:对音频信号进行子带分解处理,得到音频信号的低频子带信号以及高频子带信号;对低频子带信号进行特征提取处理,得到低频子带信号的低频特征;对高频子带信号进行高频分析处理,得到高频子带信号的高频特征;其中,高频特征的特征维度低于低频特征的特征维度;对低频特征进行量化编码处理,得到音频信号的低频码流,并对高频特征进行量化编码处理,得到音频信号的高频码流。通过本申请,能够提高音频编码效率。
-
公开(公告)号:CN113571079A
公开(公告)日:2021-10-29
申请号:CN202110171244.6
申请日:2021-02-08
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L21/0232 , G10L21/0264
Abstract: 本申请涉及语音处理技术领域,具体提供了一种语音增强方法、装置、设备及存储介质,该包括:根据目标语音帧的频域表示进行声门参数预测,得到目标语音帧对应的声门参数;根据目标语音帧的历史语音帧对应的增益对目标语音帧进行增益预测,得到目标语音帧对应的增益;根据目标语音帧的频域表示进行激励信号预测,得到目标语音帧对应的激励信号;对目标语音帧对应的声门参数、目标语音帧对应的增益和目标语音帧对应的激励信号进行合成处理,得到目标语音帧对应的增强语音信号;本方案可以有效对语音信号进行增强,提高语音信号的质量,本方案可以应用于云会议中来提升语音信号质量。
-
-
-
-
-
-
-
-
-