-
公开(公告)号:CN118020101A
公开(公告)日:2024-05-10
申请号:CN202280065219.2
申请日:2022-08-22
Applicant: 微软技术许可有限责任公司
IPC: G10L21/0208 , G10L21/0272
Abstract: 与阵列几何形状无关的多通道个性化语音增强(PSE)的示例从目标说话者登记数据中提取说话者嵌入,该说话者嵌入表示一个或多个目标说话者的声学特性。从由麦克风阵列所捕获的输入音频中提取空间特征(例如,通道间相位差)。输入音频包括(多个)目标说话者和一个或多个干扰说话者的语音数据的混合。输入音频、所提取的说话者嵌入和所提取的空间特征被提供给经训练的与几何形状无关的PSE模型。产生输出数据,其包括(多个)目标说话者的估计的干净语音数据,其具有(多个)干扰说话者的语音数据的减少(或消除),而经训练的PSE模型不需要麦克风阵列的几何形状信息。