使用局部和全局聚类的在线说话者分离

    公开(公告)号:CN119278478A

    公开(公告)日:2025-01-07

    申请号:CN202380046119.X

    申请日:2023-05-31

    Abstract: 一种方法包括:获得包含语音活动的音频流的至少一部分,其中,所述音频流的至少所述部分包括多个分段;生成表示所述多个分段中的每个分段的嵌入向量;在局部窗口中的每一个内,将所述嵌入向量聚类成一个或多个聚类以执行说话者识别,其中,不同的聚类对应于不同的说话者;基于针对所述局部窗口中的每一个执行的所述说话者识别来呈现至少一个第一说话者标识序列;在全局窗口中的每一个内,将所述嵌入向量聚类成一个或多个聚类以执行说话者识别,其中,所述全局窗口中的每一个比所述局部窗口中的每一个长;以及基于针对所述全局窗口中的每一个执行的所述说话者识别来呈现至少一个第二说话者标识序。

Patent Agency Ranking