-
公开(公告)号:CN112088403B
公开(公告)日:2024-11-15
申请号:CN201980030691.0
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
IPC: G10L17/18
Abstract: 提供了利用联合说话人定位/说话人识别神经网络的计算设备和方法。在一个例子中,计算设备接收用户说出的话音的多通道音频信号。从该信号中提取幅度和相位信息特征,并将其输入到通过多人的话音进行训练的联合说话人定位/说话人识别神经网络中。从神经网络接收包括说话人识别特性和位置特性的用户嵌入,并将其与从多个话音中提取的多个注册嵌入进行比较,其中,每个话音与对应的人的身份相关联。至少基于这种比较,使用户与这些人之一的身份匹配,并输出该人的身份。
-
公开(公告)号:CN118451496A
公开(公告)日:2024-08-06
申请号:CN202280080966.3
申请日:2022-10-27
Applicant: 微软技术许可有限责任公司
IPC: G10L15/26
Abstract: 转录生成模型从多说话者音频流生成转录。获得包括多个说话者的重叠语音的音频数据,并且使用音频数据编码器从所获得的音频数据的音频数据帧生成帧嵌入集合。使用转录生成模型从帧嵌入集合生成词集合和通道改变(CC)符号。CC符号被包括在由不同人同时说出的相邻词对之间。词集合和CC符号被变换为多个转录行,其中基于CC符号将词集合中的词归类到转录行中,并且基于多个转录行来生成多说话者转录。由模型对CC符号的包括实现高效、准确的多说话者转录。
-
公开(公告)号:CN112074901B
公开(公告)日:2024-06-04
申请号:CN201980030499.1
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
Abstract: 公开了涉及语音识别登入的示例。一个示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,并且响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。所述方法还包括至少基于所述样本来确立人类讲话者的声纹。
-
公开(公告)号:CN112088403A
公开(公告)日:2020-12-15
申请号:CN201980030691.0
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
IPC: G10L17/18
Abstract: 提供了利用联合说话人定位/说话人识别神经网络的计算设备和方法。在一个例子中,计算设备接收用户说出的话音的多通道音频信号。从该信号中提取幅度和相位信息特征,并将其输入到通过多人的话音进行训练的联合说话人定位/说话人识别神经网络中。从神经网络接收包括说话人识别特性和位置特性的用户嵌入,并将其与从多个话音中提取的多个注册嵌入进行比较,其中,每个话音与对应的人的身份相关联。至少基于这种比较,使用户与这些人之一的身份匹配,并输出该人的身份。
-
公开(公告)号:CN112088315A
公开(公告)日:2020-12-15
申请号:CN201980030506.8
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
IPC: G01S3/801 , G01S5/18 , G10L17/10 , G10L17/00 , G06K9/00 , H04N7/15 , H04N5/232 , G06T7/70 , G06K9/62
Abstract: 使用由一个或多个相机捕获的图像数据以及由麦克风阵列捕获的音频数据来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定每个人类面部的定位。将输入数据提供给在先训练的音频源定位分类器,包括:由每个麦克风捕获的所述音频数据的所述频域表示,以及由每个相机捕获的每个人类面部的定位,其中,每个人类面部的定位表示候选音频源。由分类器基于被估计为所述音频数据所源自的人类面部的输入数据来指示识别出的音频源。
-
公开(公告)号:CN112075075A
公开(公告)日:2020-12-11
申请号:CN201980030272.7
申请日:2019-04-27
Applicant: 微软技术许可有限责任公司
Inventor: A·迪亚曼特 , K·马斯特本-多尔 , E·克鲁普卡 , R·哈雷 , Y·斯莫林 , I·古维奇 , A·赫维兹 , 秦莉娟 , 熊炜 , 张世雄 , 吴凌峰 , 肖雄 , I·莱希特尔 , M·大卫 , X·黃 , A·K·阿加瓦尔
IPC: H04N7/14
Abstract: 一种用于促进远程会议的方法包括:接收数字视频和计算机可读音频信号。面部识别机被操作为识别数字视频中的第一会议参与者的面部,语音识别机被操作为将计算机可读音频信号转换为第一文本。归属机将该文本归属于第一会议参与者。类似地,对第二计算机可读音频信号进行处理,以获得归属于第二会议参与者的第二文本。转录机自动地创建包含归属于第一会议参与者的第一文本和归属于第二会议参与者的第二文本的转录本。
-
公开(公告)号:CN112074901A
公开(公告)日:2020-12-11
申请号:CN201980030499.1
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
Abstract: 公开了涉及语音识别登入的示例。一个示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,并且响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。所述方法还包括至少基于所述样本来确立人类讲话者的声纹。
-
公开(公告)号:CN112088315B
公开(公告)日:2024-04-02
申请号:CN201980030506.8
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
IPC: G01S3/801 , G01S5/18 , G10L17/10 , G10L17/00 , G06V40/16 , G06V10/44 , G06V10/764 , G06T7/70 , H04N23/611 , H04N23/90
Abstract: 使用由一个或多个相机捕获的图像数据以及由麦克风阵列捕获的音频数据来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定每个人类面部的定位。将输入数据提供给在先训练的音频源定位分类器,包括:由每个麦克风捕获的所述音频数据的所述频域表示,以及由每个相机捕获的每个人类面部的定位,其中,每个人类面部的定位表示候选音频源。由分类器基于被估计为所述音频数据所源自的人类面部的输入数据来指示识别出的音频源。
-
公开(公告)号:CN112075075B
公开(公告)日:2022-12-06
申请号:CN201980030272.7
申请日:2019-04-27
Applicant: 微软技术许可有限责任公司
Inventor: A·迪亚曼特 , K·马斯特本-多尔 , E·克鲁普卡 , R·哈雷 , Y·斯莫林 , I·古维奇 , A·赫维兹 , 秦莉娟 , 熊炜 , 张世雄 , 吴凌峰 , 肖雄 , I·莱希特尔 , M·大卫 , X·黃 , A·K·阿加瓦尔
IPC: H04N7/14
Abstract: 一种用于促进远程会议的方法包括:接收数字视频和计算机可读音频信号。面部识别机被操作为识别数字视频中的第一会议参与者的面部,语音识别机被操作为将计算机可读音频信号转换为第一文本。归属机将该文本归属于第一会议参与者。类似地,对第二计算机可读音频信号进行处理,以获得归属于第二会议参与者的第二文本。转录机自动地创建包含归属于第一会议参与者的第一文本和归属于第二会议参与者的第二文本的转录本。
-
-
-
-
-
-
-
-