-
-
-
-
-
公开(公告)号:CN112204657B
公开(公告)日:2023-12-22
申请号:CN201980035652.X
申请日:2019-03-29
Applicant: 微软技术许可有限责任公司
IPC: G10L17/00
Abstract: 本公开提供了用于利用提前停止聚类的讲话者分离的方法和装置。可以将音频流分割为至少一个语音段,所述音频流包括来自至少一个讲话者的语音。可以将所述至少一个语音段聚类为多个簇,所述多个簇的数量大于所述至少一个讲话者的数量。可以从所述多个簇中选择相似度最高的至少一个簇,所选择的至少一个簇的数量等于所述至少一个讲话者的数量。可以基于所选择的至少一个簇来建立讲话者分类模型。可以通过所述讲话者分类模型,将所述音频流中的语音帧与所述至少一个讲话者对准。
-
公开(公告)号:CN112204657A
公开(公告)日:2021-01-08
申请号:CN201980035652.X
申请日:2019-03-29
Applicant: 微软技术许可有限责任公司
IPC: G10L17/00
Abstract: 本公开提供了用于利用提前停止聚类的讲话者分离的方法和装置。可以将音频流分割为至少一个语音段,所述音频流包括来自至少一个讲话者的语音。可以将所述至少一个语音段聚类为多个簇,所述多个簇的数量大于所述至少一个讲话者的数量。可以从所述多个簇中选择相似度最高的至少一个簇,所选择的至少一个簇的数量等于所述至少一个讲话者的数量。可以基于所选择的至少一个簇来建立讲话者分类模型。可以通过所述讲话者分类模型,将所述音频流中的语音帧与所述至少一个讲话者对准。
-
-
-
-
-