-
公开(公告)号:CN119360878B
公开(公告)日:2025-03-14
申请号:CN202411897514.1
申请日:2024-12-23
Applicant: 安徽大学
IPC: G10L21/0308 , G10L21/0272 , G10L25/30 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及语音分离技术领域,具体涉及结合声学特征和状态空间模型的语音分离方法及系统。本发明为了实现语音分离提供了一种语音分离模型,其首先通过音频编码部对混合语音Voicemix进行编码以得到N种不同分辨率的音频特征{F1~FN},接着通过声学特征提取部基于{F1~FN}提取出多尺度语音特征G'm,然后通过状态空间网络部对G'm进行长期建模以得到长时特征IT,out,最后通过音频解码部结合{F1~FN}与IT,out解码重构出{Voice1,…,VoiceN}。本发明解决了现有语音分离方法面对长序列音频会出现建模局限而影响语音分离性能的问题。
-
公开(公告)号:CN118230752A
公开(公告)日:2024-06-21
申请号:CN202410139135.X
申请日:2024-01-31
Applicant: 安徽大学
IPC: G10L21/0272 , G10L25/30 , G10L15/25 , G10L15/16
Abstract: 本申请涉及一种语音分离模型的训练方法和装置、语音分离方法,语音分离模型包括教师模型和学生模型。其中,该语音分离模型的训练方法包括:获取相对应的样本音频数据和样本视频数据;通过样本音频数据和样本视频数据对教师模型进行监督训练;通过样本音频数据对学生模型进行监督训练,并在训练过程中通过训练后的教师模型对学生模型进行训练指导。通过上述语音分离模型的训练方法,最终得到高性能的学生模型。训练后的学生模型应用在实际语音分离场景中,可以准确地对单独的音频数据进行分离,而不需要相对应的视频数据进行辅助。因此,解决了现有的语音分离技术难以准确地对无同步视频数据的音频数据进行语音分离的问题。
-
公开(公告)号:CN119360878A
公开(公告)日:2025-01-24
申请号:CN202411897514.1
申请日:2024-12-23
Applicant: 安徽大学
IPC: G10L21/0308 , G10L21/0272 , G10L25/30 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及语音分离技术领域,具体涉及结合声学特征和状态空间模型的语音分离方法及系统。本发明为了实现语音分离提供了一种语音分离模型,其首先通过音频编码部对混合语音Voicemix进行编码以得到N种不同分辨率的音频特征{F1~FN},接着通过声学特征提取部基于{F1~FN}提取出多尺度语音特征G'm,然后通过状态空间网络部对G'm进行长期建模以得到长时特征IT,out,最后通过音频解码部结合{F1~FN}与IT,out解码重构出{Voice1,…,VoiceN}。本发明解决了现有语音分离方法面对长序列音频会出现建模局限而影响语音分离性能的问题。
-
公开(公告)号:CN118230752B
公开(公告)日:2024-10-25
申请号:CN202410139135.X
申请日:2024-01-31
Applicant: 安徽大学
IPC: G10L21/0272 , G10L25/30 , G10L15/25 , G10L15/16
Abstract: 本申请涉及一种语音分离模型的训练方法和装置、语音分离方法,语音分离模型包括教师模型和学生模型。其中,该语音分离模型的训练方法包括:获取相对应的样本音频数据和样本视频数据;通过样本音频数据和样本视频数据对教师模型进行监督训练;通过样本音频数据对学生模型进行监督训练,并在训练过程中通过训练后的教师模型对学生模型进行训练指导。通过上述语音分离模型的训练方法,最终得到高性能的学生模型。训练后的学生模型应用在实际语音分离场景中,可以准确地对单独的音频数据进行分离,而不需要相对应的视频数据进行辅助。因此,解决了现有的语音分离技术难以准确地对无同步视频数据的音频数据进行语音分离的问题。
-
-
-