-
公开(公告)号:CN119339691A
公开(公告)日:2025-01-21
申请号:CN202411456368.9
申请日:2024-10-17
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供了一种音乐生成方法、装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待转换的歌词文本和参考音频;将参考音频由原始音频空间映射到潜在空间,得到第一音频特征;基于作用在潜在空间的扩散模型,对第一音频特征执行多步加噪处理,得到噪声特征;在给定前置条件的情况下,基于扩散模型对噪声特征执行多步去噪处理,得到第二音频特征;其中,前置条件与该歌词文本和参考音频的总时长有关;将第二音频特征由潜在空间映射回原始音频空间,得到用于演唱该歌词文本的音乐作品。本公开简化了音乐生成过程中的用户输入,提高了音乐生成效率。
-
公开(公告)号:CN115547308B
公开(公告)日:2024-09-20
申请号:CN202211067740.8
申请日:2022-09-01
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质,该方法包括:确定目标音频特征信息,对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,基于第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。本申请通过数据增强处理后的第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行训练,无需标签数据,从而减少了训练成本。
-
公开(公告)号:CN115331694B
公开(公告)日:2024-09-20
申请号:CN202210975124.6
申请日:2022-08-15
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30 , G10L19/16 , G10L19/02
Abstract: 本公开关于一种语音分离网络生成方法、装置、电子设备以及存储介质,属于语音处理技术领域,该方法包括:在给定多个样本音频信号的基础上,迭代训练获取到的语音分离超网络,其中,该语音分离超网络包括编码器和解码器,编码器和解码器均包括多个网络层和搜索空间,该搜索空间配置有多个网络层的结构参数。进一步地,基于训练后的语音分离超网络,生成符合目标条件的目标语音分离子网络。在上述过程中,通过设计一种配置有结构参数的搜索空间,实现了基于语音分离超网络,自动生成符合目标条件的目标语音分离子网络,避免了手动调节网络中不同网络层的结构参数,提高了语音分离网络的生成效率。
-
公开(公告)号:CN112967730B
公开(公告)日:2024-07-02
申请号:CN202110125640.5
申请日:2021-01-29
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0208 , G10L21/0264
Abstract: 本公开是关于一种语音信号的处理方法、装置、电子设备及存储介质,属于语音处理技术领域。方法包括:确定原始语音信号中的多个语音信号帧的第一语音特征;调用非局部注意力网络对所述多个语音信号帧的第一语音特征进行融合,得到所述每个语音信号帧的非局部语音特征;调用局部注意力网络对所述每个语音信号帧的非局部语音特征分别进行处理,得到所述每个语音信号帧的混合语音特征;基于所述多个语音信号帧的混合语音特征获取去噪参数;按照所述去噪参数对所述原始语音信号进行去噪,得到目标语音信号。该方法在处理过程中考虑该语音信号帧的上下文信息,使得到的去噪参数更加准确,从而提高原始语音信号的去噪效果。
-
公开(公告)号:CN115633223A
公开(公告)日:2023-01-20
申请号:CN202211256196.1
申请日:2022-10-13
Applicant: 北京达佳互联信息技术有限公司
IPC: H04N21/81 , H04N21/8549 , H04N21/845 , H04N21/44 , H04N21/439 , H04N21/234 , H04N21/233 , H04N21/2187
Abstract: 本公开提供了一种视频处理方法、装置、电子设备及存储介质,属于计算机技术领域。方法包括:对第一视频进行分类,得到第一视频所属的视频类型;基于视频类型,确定第一视频的音频处理类型;对第一视频进行内容识别,得到音频处理类型对应的内容关键信息;获取目标视频信息,将目标视频信息添加在第一视频中,得到第二视频。本公开实施例提供了一种视频处理方法,考虑到属于不同视频类型的第一视频中的原有音频的特点,确定出第一视频所属的音频处理类型,按照该音频处理类型对应的处理方式,对第一视频进行处理,以针对不同视频类型的第一视频中的原有音频的特点进行处理,得到更具特色的第二视频,进行保证了第二视频的视频效果。
-
公开(公告)号:CN115206305A
公开(公告)日:2022-10-18
申请号:CN202211128827.1
申请日:2022-09-16
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供了一种语义文本的生成方法、装置、电子设备及存储介质,属于音频处理技术领域。该方法包括:获取音频信号的梅尔谱图;通过语义识别模型中的音频特征提取网络,基于时空注意力机制和通道注意力机制,对所述梅尔谱图进行特征提取,得到音频特征矩阵;通过所述语义识别模型中的文本生成网络,基于所述音频特征矩阵,生成语义文本。上述方案不仅基于时空注意力机制来提取音频信号的特征,还能够基于通道注意力机制来提取音频信号的特征,使得提取到的音频特征矩阵能够准确表示音频信号的特征,从而能够提高语义文本的准确率,进而更加准确表达音频信号的语义。
-
公开(公告)号:CN109300485B
公开(公告)日:2022-06-10
申请号:CN201811376670.8
申请日:2018-11-19
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开是关于一种音频信号的评分方法、装置、电子设备及计算机存储介质,属于音频评分领域。所述方法通过对从原唱信号中分离的第一原唱人声信号进行噪声抑制处理,可以获得伴奏残留较少的第二原唱人声信号,从而使得该伴奏残留较少的第二原唱人声信号比较准确,可以降低第二原唱人声信号与目标音频信号之间的差异,进而使得目标音频信号的得分比较准确。
-
公开(公告)号:CN111508519B
公开(公告)日:2022-04-26
申请号:CN202010259819.5
申请日:2020-04-03
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0264 , G10L21/0316 , G10L21/0324
Abstract: 本公开关于一种音频信号人声增强的方法及装置,涉及多媒体技术领域,能够以较低的数据处理复杂度,解决实时音频文件传输中的人声对话增强的技术问题。该方法包括:对原始音频信号进行加窗分帧处理,得到多个音频信号片段;根据多个音频信号片段得到每个音频信号片段的基频信息和多个特征参数;其中,每个音频信号片段的多个特征参数包括每个音频信号片段在幅度谱上被划分为多个巴克Bark子带的特征参数;根据神经网络算法依次对每个音频信号片段片段进行增强处理,分别得到每个音频信号片段的人声增强信号;将每个音频信号片段的人声增强信号依次叠接相加,得到目标增强信号。
-
公开(公告)号:CN112289334B
公开(公告)日:2021-04-02
申请号:CN202011588741.8
申请日:2020-12-29
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0208 , G10L21/0216 , G10L21/0224 , G10L21/0232 , G10L21/0264 , G10L25/03 , G10L25/18 , G10L25/30
Abstract: 本申请涉及语音处理技术领域,公开了一种混响消除方法及装置,用以解决难以消除混响时间较长的语音信号的问题。该方法包括:生成音频对应的声谱图和相位谱图,声谱图上的每一帧对应一个语音信号组;对各帧进行特征提取得到对应的语音特征,并确定各个语音特征的上下文关联向量;再基于各个语音特征以及对应的上下文关联向量,确定出声谱图上各个语音信号的语音掩蔽估计值,并根据各个语音掩蔽估计值对声谱图执行消除混响操作,得到去混响的声谱图;最后利用去混响的声谱图和相位谱图得到去混响的音频。通过对输入的语音特征图添加注意力,可以使得语音特征图上的语音特征以干净语音信息或者混响语音信息为主导,从而区分干净语音和混响语音。
-
公开(公告)号:CN116129881A
公开(公告)日:2023-05-16
申请号:CN202310003040.0
申请日:2023-01-03
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音任务处理方法、装置、电子设备及存储介质,该方法包括获取预设语音任务对应的待处理语音信息;将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到待处理语音信息对应的目标语音特征信息,任一时频注意力层用于在学习待处理语音信息中时频信息的重要程度的基础上,从待处理语音信息中提取语音特征信息;基于目标语音特征信息执行预设语音任务,得到任务处理结果。利用本公开实施例可以大大提升了语音特征信息的表征准确性和语音任务的处理性能。
-
-
-
-
-
-
-
-
-