-
公开(公告)号:CN119278478A
公开(公告)日:2025-01-07
申请号:CN202380046119.X
申请日:2023-05-31
Applicant: 三星电子株式会社
Abstract: 一种方法包括:获得包含语音活动的音频流的至少一部分,其中,所述音频流的至少所述部分包括多个分段;生成表示所述多个分段中的每个分段的嵌入向量;在局部窗口中的每一个内,将所述嵌入向量聚类成一个或多个聚类以执行说话者识别,其中,不同的聚类对应于不同的说话者;基于针对所述局部窗口中的每一个执行的所述说话者识别来呈现至少一个第一说话者标识序列;在全局窗口中的每一个内,将所述嵌入向量聚类成一个或多个聚类以执行说话者识别,其中,所述全局窗口中的每一个比所述局部窗口中的每一个长;以及基于针对所述全局窗口中的每一个执行的所述说话者识别来呈现至少一个第二说话者标识序。
-
公开(公告)号:CN119137661A
公开(公告)日:2024-12-13
申请号:CN202380037453.9
申请日:2023-06-01
Applicant: 三星电子株式会社
IPC: G10L17/24 , G10L17/02 , G10L17/06 , G10L25/51 , G10L17/04 , G06N3/0464 , G06N3/0442
Abstract: 一种方法包括获得音频数据并且识别音频数据中的唤醒词或唤醒短语的话语。该方法还包括基于来自音频数据的话语来生成嵌入向量,并且访问表示唤醒词或唤醒短语的先前话语的先前生成向量集合。该方法还包括对嵌入向量和先前生成向量集合执行聚类以识别包括嵌入向量的聚类,其中所识别的聚类与说话者相关联。该方法还包括基于嵌入向量来更新与说话者相关联的说话者向量,并且使用说话者验证模型确定更新的说话者向量和嵌入向量之间的相似度得分。此外,该方法包括基于相似度得分来确定提供话语的说话者是否匹配与所识别的聚类相关联的说话者。
-
公开(公告)号:CN118355436A
公开(公告)日:2024-07-16
申请号:CN202280077165.1
申请日:2022-11-30
Applicant: 三星电子株式会社
Inventor: 金明钟 , 维延德拉·拉吉·埃普斯格卡 , 迪亚·尼拉吉里 , 奇泰延
IPC: G10L17/18 , G10L15/00 , G10L21/0272 , G10L15/16
Abstract: 一种用于处理语音数据的设备可包括被配置为进行以下操作的处理器:从输入语音分离语音信号;识别从所述输入语音分离的所述语音信号中的每一个语音信号的语言;使用至少一个神经网络,基于所述语音信号中的每一个语音信号的语言从所述语音信号中提取说话人嵌入,其中,所述至少一个神经网络被配置为接收所述语音信号并输出所述说话人嵌入;以及通过迭代地聚类所述说话人嵌入来识别所述语音信号中的每一个语音信号的说话人。
-
-