-
公开(公告)号:CN119580749A
公开(公告)日:2025-03-07
申请号:CN202411734940.3
申请日:2024-11-27
Applicant: 平安科技(深圳)有限公司
IPC: G10L19/02 , G10L21/0316 , G10L21/04 , G10L25/03 , G10L25/30
Abstract: 本发明实施例提供一种语音信号的重构方法、装置、设备及存储介质。方法包括:获取初始语音信号,并对所述初始语音信号进行傅里叶变换计算得到频谱信息;基于所述频谱信息确定对应的初始梅尔谱,并通过目标声码器中的特征提取网络对所述初始梅尔谱进行特征提取操作,得到初始特征向量;通过所述目标声码器中的频谱生成网络对所述初始特征向量进行分析,得到目标幅度谱和目标相位谱;对所述目标幅度谱和所述目标相位谱进行逆傅里叶变换,得到重构后的目标语音信号。本申请实施例旨在较为精准的重构语音信号,使得生成的语音信号的自然度和清晰度较高。
-
公开(公告)号:CN119580701A
公开(公告)日:2025-03-07
申请号:CN202411786642.9
申请日:2024-12-05
Applicant: 平安科技(深圳)有限公司
Abstract: 本申请实施例属于音频处理技术领域,涉及一种语音合成方法、装置、计算机设备及存储介质,该方法包括:调用配置好的文本转语音模型,并在文本转语音模型的查找表中获取与合成对象标识数据相对应的第一嵌入数据,其中,配置好的文本转语音模型嵌入有适配器;对新对象语音数据进行特征提取操作,得到第二嵌入数据;对第一嵌入数据以及第二嵌入数据进行拼接操作,得到综合嵌入数据;根据综合嵌入数据对适配器进行参数调整操作,得到微调后的文本转语音模型;将综合嵌入数据以及合成文本数据输入至微调后的文本转语音模型进行语音合成操作,得到合成音频数据;向用户终端输出合成音频数据。本申请大幅降低了计算资源的需求。
-
公开(公告)号:CN119580692A
公开(公告)日:2025-03-07
申请号:CN202411764915.X
申请日:2024-12-03
Applicant: 平安科技(深圳)有限公司
Abstract: 本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质,属于人工智能技术领域,适用于金融科技领域。该方法包括:获取多模态参考数据;从多模态参考数据中提取得到视觉参考嵌入特征、音频参考嵌入特征、文本参考嵌入特征、情感描述嵌入特征;基于多模态投影矩阵对视觉参考嵌入特征、音频参考嵌入特征和文本参考嵌入特征进行特征投影,得到多模态隐式情感嵌入特征;基于多模态投影矩阵对情感描述嵌入特征进行特征投影得到情感提示投影嵌入特征;基于多模态隐式情感嵌入特征和情感提示投影嵌入特征进行特征计算得到情感参考嵌入特征;基于情感参考嵌入特征和语音合成文本嵌入特征进行语音合成。本申请实施例能够提高语音合成的自然度。
-
公开(公告)号:CN112581978B
公开(公告)日:2025-03-07
申请号:CN202011446660.4
申请日:2020-12-11
Applicant: 平安科技(深圳)有限公司
IPC: G10L25/51 , G10L25/30 , G10L19/02 , G01S5/18 , G06F17/15 , G06F17/16 , G06N3/0442 , G06N3/0464 , G06N3/044 , G06N3/08
Abstract: 本申请提供一种声音事件检测与定位方法、装置、设备及可读存储介质,该方法包括:获取麦克风阵列采集到的多个音频信号;确定多个音频信号中的每两个音频信号之间的互相关函数矩阵;将每个互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵,预设声音事件分类模型为预先训练好的的神经网络模型;对每个音频信号进行傅里叶变换,得到每个音频信号的频谱图,并根据每个音频信号的频谱数据,确定声音事件的声源方位矩阵;将类别矩阵和声源方位矩阵输入至预设匹配网络进行匹配,得到音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。本申请准确且快速的实现声音事件的检测和定位。
-
公开(公告)号:CN119562042A
公开(公告)日:2025-03-04
申请号:CN202411643864.5
申请日:2024-11-15
Applicant: 平安科技(深圳)有限公司
IPC: H04N13/161 , H04N13/282 , H04N13/243 , H04N13/239
Abstract: 本申请实施例属于研发设计及图像处理技术领域,应用于多目摄像头下的视频合成场景中,涉及一种视频处理方法、装置、设备及其存储介质,通过获取多目摄像头中每一目摄像头分别所采集的视频数据;对视频数据进行图片化处理,获得每一目摄像头分别对应的视频图片集;采用交替压缩方式对每一目摄像头分别对应的视频图片集进行编解码处理,获得解码图片集;根据解码图片集,进行采集视频合成输出。由于同一采集时间下对应的解码图片,都是由多目摄像头所拍摄的图片经交替压缩方式编解码处理而成,提高了整体压缩效率和压缩比例,实现了解码图片具备更加细节化图片信息,保证合成视频更加细节化和清晰化。
-
公开(公告)号:CN119559960A
公开(公告)日:2025-03-04
申请号:CN202411731929.1
申请日:2024-11-27
Applicant: 平安科技(深圳)有限公司
IPC: G10L21/0232 , G10L21/0264 , G10L25/18 , G10L25/27
Abstract: 本发明涉及音频处理技术领域,尤其涉及一种基于人工智能的音频优化方法、装置、计算机设备及介质。该方法使用线性层对待优化音频的频谱包络映射得到包络特征,使用嵌入层将标准音频参数嵌入为参数特征,使用预测模型对包络特征和参数特征的融合特征预测,得到预测音高曲线,使用加噪模型对待优化音频的梅尔频谱加噪,得到加噪结果,使用噪声估计模型计算加噪结果的噪声,得到预测噪声,根据预测噪声、真实噪声和预测音高曲线,更新噪声估计模型,使用更新好的噪声估计模型计算加噪结果的参考噪声,根据参考噪声对加噪结果去噪,得到优化后的梅尔频谱,结合音高信息优化噪声估计模型,使得去噪过程满足音高需求,提高了音频优化的效果。
-
公开(公告)号:CN119559955A
公开(公告)日:2025-03-04
申请号:CN202411708449.3
申请日:2024-11-26
Applicant: 平安科技(深圳)有限公司
IPC: G10L21/013 , G10L25/18 , G10L21/0208
Abstract: 本发明公开了一种语音风格转换方法,该方法包括获取语音数据集,语音数据集中包括源语音和目标语音;对源语音和目标语音进行特征提取,得到第一梅尔频谱和第二梅尔频谱;通过预设内容编码器对第一梅尔频谱进行内容特征提取,得到内容特征;对与内容特征对齐的音素序列进行下采样处理,得到隐藏态序列;通过预设风格编码器对第二梅尔频谱进行风格特征提取,得到风格特征;对风格特征和隐藏态序列进行对齐嵌入,得到目标风格特征;根据隐藏态序列和目标风格特征,确定语音转换结果。本发明通过对与内容特征对齐的音素序列进行下采样,解决了存在噪声帧的问题。通过对风格特征和隐藏态序列进行对齐嵌入,实现了有效转移除音色外的其他风格。
-
公开(公告)号:CN119559932A
公开(公告)日:2025-03-04
申请号:CN202411719880.8
申请日:2024-11-26
Applicant: 平安科技(深圳)有限公司
Abstract: 本发明适用于人工智能领域,尤其涉及一种频谱强度可调的语音合成方法、装置、计算机设备及介质。本发明对原始频谱中的K个共振峰的频率进行随机扰动,得到对应共振峰的扰动频率并替换其在原始频谱中的频率,得到扰动频谱,并编码得到扰动频谱特征,计算扰动频谱特征和预设的N个强度矩阵间的相关性,确定对应强度矩阵的权重,根据权重对N个强度矩阵进行加权求和,得到强度特征,对强度特征和扰动频谱特征进行特征融合,得到频谱强度特征,根据频谱强度特征、目标文本和目标语音特征得到目标语音,通过对共振峰进行扰动来破坏原始频谱中表征的说话人信息,保留有效的情感和强度信息,并计算强度矩阵的权重,提高了目标语音中情感强度的准确性。
-
公开(公告)号:CN119559928A
公开(公告)日:2025-03-04
申请号:CN202411721193.X
申请日:2024-11-27
Applicant: 平安科技(深圳)有限公司
Abstract: 本发明涉及语音合成技术领域,公开了一种语音合成方法、装置、计算机设备及存储介质,其方法通过获取参考语音数据和待合成文本;通过预设韵律编码器对参考语音数据进行编码处理,获得韵律嵌入向量;通过预设语音识别模型对参考语音数据进行特征提取处理,获得补偿特征向量;通过预设韵律补偿编码器对补偿特征向量进行编码处理,获得韵律补偿向量;对韵律嵌入向量和韵律补偿向量进行融合,获得韵律特征向量;通过预设语音合成模型对待合成文本和韵律特征向量进行合成处理,生成目标合成语音。本发明通过韵律嵌入和韵律补偿辅助语音合成,减小了韵律信息的损失,提高了语音合成效果,在金融服务业务场景中体现智能化和人性化服务,提升用户体验。
-
公开(公告)号:CN119541497A
公开(公告)日:2025-02-28
申请号:CN202411522522.8
申请日:2024-10-28
Applicant: 平安科技(深圳)有限公司
IPC: G10L15/26 , G10L15/22 , G10L13/10 , G10L25/63 , G10L25/18 , G06F3/16 , G06F40/16 , G06F40/30 , G06F16/334 , G06N3/0475 , G06N3/045
Abstract: 本发明涉及人工智能技术中的智能语音技术领域,可应用于语音交互领域,本发明公开了基于知识库的语音应答方法、装置、设备及存储介质,方法包括:获取目标语音,将目标语音转换为文本内容;获取文本内容中的提问语句,对提问语句进行编码,生成句子向量;选取存储目标用户群体数据的知识库作为目标知识库,在目标知识库中,通过句子向量,获取答案信息;选取答案信息作为提示词模板,获取目标语音的情感信息;将提示词模板、文本内容、情感信息输入预设的大语言模型,获取大语言模型生成的回复文本;处理目标说话人的声音样本和回复文本,生成目标说话人的应答语音,播放应答语音。本发明有利于提高目标说话人的应答语音的获取效率。
-
-
-
-
-
-
-
-
-