使用局部和全局聚类的在线说话者分离

    公开(公告)号:CN119278478A

    公开(公告)日:2025-01-07

    申请号:CN202380046119.X

    申请日:2023-05-31

    Abstract: 一种方法包括:获得包含语音活动的音频流的至少一部分,其中,所述音频流的至少所述部分包括多个分段;生成表示所述多个分段中的每个分段的嵌入向量;在局部窗口中的每一个内,将所述嵌入向量聚类成一个或多个聚类以执行说话者识别,其中,不同的聚类对应于不同的说话者;基于针对所述局部窗口中的每一个执行的所述说话者识别来呈现至少一个第一说话者标识序列;在全局窗口中的每一个内,将所述嵌入向量聚类成一个或多个聚类以执行说话者识别,其中,所述全局窗口中的每一个比所述局部窗口中的每一个长;以及基于针对所述全局窗口中的每一个执行的所述说话者识别来呈现至少一个第二说话者标识序。

    用于语音助理的说话验证的装置和方法

    公开(公告)号:CN119137661A

    公开(公告)日:2024-12-13

    申请号:CN202380037453.9

    申请日:2023-06-01

    Abstract: 一种方法包括获得音频数据并且识别音频数据中的唤醒词或唤醒短语的话语。该方法还包括基于来自音频数据的话语来生成嵌入向量,并且访问表示唤醒词或唤醒短语的先前话语的先前生成向量集合。该方法还包括对嵌入向量和先前生成向量集合执行聚类以识别包括嵌入向量的聚类,其中所识别的聚类与说话者相关联。该方法还包括基于嵌入向量来更新与说话者相关联的说话者向量,并且使用说话者验证模型确定更新的说话者向量和嵌入向量之间的相似度得分。此外,该方法包括基于相似度得分来确定提供话语的说话者是否匹配与所识别的聚类相关联的说话者。

Patent Agency Ranking