-
公开(公告)号:CN102782704B
公开(公告)日:2015-09-23
申请号:CN201180011712.8
申请日:2011-02-25
Applicant: 微软技术许可有限责任公司
Inventor: E·克鲁普卡 , I·阿布拉莫夫斯基 , I·克维阿特科维斯凯
IPC: G06K9/20
CPC classification number: G06K9/6218 , G06F17/30259 , G06K9/00288 , G06K9/00677 , G06K9/623 , G06K2009/00328 , G06K2209/27
Abstract: 可以分析用户的图像集合以标识图像内的人的脸部,随后创建相似脸部的聚类,其中每个聚类可以表示一个人。可按大小顺序对聚类进行排名,以确定相关联的人对该用户的相对重要性。该排名可用于许多社交应用,以过滤和呈现用户可能感兴趣的内容。在一个使用场景中,聚类可用于从第二用户的图像集合标识图像,其中所标识的图像可能与第一用户有关或对第一用户来说是有趣的。该排名也可以根据用户与图像的交互、以及与图像无关的其他输入。当新图像被添加到用户的集合时,排名可被增量式地更新。
-
公开(公告)号:CN112075075B
公开(公告)日:2022-12-06
申请号:CN201980030272.7
申请日:2019-04-27
Applicant: 微软技术许可有限责任公司
Inventor: A·迪亚曼特 , K·马斯特本-多尔 , E·克鲁普卡 , R·哈雷 , Y·斯莫林 , I·古维奇 , A·赫维兹 , 秦莉娟 , 熊炜 , 张世雄 , 吴凌峰 , 肖雄 , I·莱希特尔 , M·大卫 , X·黃 , A·K·阿加瓦尔
IPC: H04N7/14
Abstract: 一种用于促进远程会议的方法包括:接收数字视频和计算机可读音频信号。面部识别机被操作为识别数字视频中的第一会议参与者的面部,语音识别机被操作为将计算机可读音频信号转换为第一文本。归属机将该文本归属于第一会议参与者。类似地,对第二计算机可读音频信号进行处理,以获得归属于第二会议参与者的第二文本。转录机自动地创建包含归属于第一会议参与者的第一文本和归属于第二会议参与者的第二文本的转录本。
-
公开(公告)号:CN108431735A
公开(公告)日:2018-08-21
申请号:CN201680077395.2
申请日:2016-12-21
Applicant: 微软技术许可有限责任公司
CPC classification number: G06F3/017 , G06F3/0304 , G06F3/0482 , G06F8/34 , G06K9/00355 , G06K9/00382 , G06K9/00389 , G06K9/46
Abstract: 一种用于创建手部姿态表示的系统,包括:(a)用于与用户交互的接口。(b)存储多个离散姿势值和离散运动值的存储装置。(c)存储姿态视觉构建器代码的存储器。(d)被耦合到接口、存储装置和存储器以执行姿态视觉构建器代码以允许用户创建手部姿态的一个或多个处理器。姿态视觉构建器代码包括:(1)用于向用户呈现显示分级菜单驱动界面的GUI的代码指令。(2)用于使用分级菜单驱动界面从用户迭代地接收用户指令、以用于通过定义一个或多个手部姿势特征记录和手部运动特征记录来创建手部姿态的逻辑序列的代码指令。(3)用于生成分别通过离散姿势/运动值来定义一个或多个手部姿势/运动特征记录的代码分段的代码指令。
-
公开(公告)号:CN112088315B
公开(公告)日:2024-04-02
申请号:CN201980030506.8
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
IPC: G01S3/801 , G01S5/18 , G10L17/10 , G10L17/00 , G06V40/16 , G06V10/44 , G06V10/764 , G06T7/70 , H04N23/611 , H04N23/90
Abstract: 使用由一个或多个相机捕获的图像数据以及由麦克风阵列捕获的音频数据来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定每个人类面部的定位。将输入数据提供给在先训练的音频源定位分类器,包括:由每个麦克风捕获的所述音频数据的所述频域表示,以及由每个相机捕获的每个人类面部的定位,其中,每个人类面部的定位表示候选音频源。由分类器基于被估计为所述音频数据所源自的人类面部的输入数据来指示识别出的音频源。
-
公开(公告)号:CN105518480B
公开(公告)日:2018-01-26
申请号:CN201480033840.6
申请日:2014-06-11
Applicant: 微软技术许可有限责任公司
Inventor: E·克鲁普卡
CPC classification number: H04N13/128 , G01S7/497 , G01S17/36 , G01S17/89
Abstract: 描述了使用查找表进行深度图纠正。在一个示例中,可以生成使用从照亮对象的相机发射的光与在相机处接收到的从该对象反射的光之间的相位差来测量到对象的深度的深度图。在各实施例中,深度图可能遭受收到光在被相机接收之前经历多次反射所导致的误差。在一示例中,对估计出的对象深度的纠正可以被计算并存储在查找表中,该查找表将收到光的振幅和相位映射到深度纠正。在一示例中,每一调频的振幅和频率可用于访问查找表,该查找表存储对对象深度的纠正并且允许获得准确的深度图。
-
公开(公告)号:CN105518480A
公开(公告)日:2016-04-20
申请号:CN201480033840.6
申请日:2014-06-11
Applicant: 微软技术许可有限责任公司
Inventor: E·克鲁普卡
CPC classification number: H04N13/128 , G01S7/497 , G01S17/36 , G01S17/89
Abstract: 描述了使用查找表进行深度图纠正。在一个示例中,可以生成使用从照亮对象的相机发射的光与在相机处接收到的从该对象反射的光之间的相位差来测量到对象的深度的深度图。在各实施例中,深度图可能遭受收到光在被相机接收之前经历多次反射所导致的误差。在一示例中,对估计出的对象深度的纠正可以被计算并存储在查找表中,该查找表将收到光的振幅和相位映射到深度纠正。在一示例中,每一调频的振幅和频率可用于访问查找表,该查找表存储对对象深度的纠正并且允许获得准确的深度图。
-
公开(公告)号:CN112088402B
公开(公告)日:2024-07-26
申请号:CN201980030685.5
申请日:2019-04-27
Applicant: 微软技术许可有限责任公司
Abstract: 一种说话者识别系统包括先前训练的联合神经网络。说话者识别系统的注册机被配置为基于体现新说话者的特征的视听数据,操作先前训练的联合神经网络来注册新说话者。说话者识别系统的识别机被配置为基于体现先前注册的说话者的特征的视听数据,操作先前训练的联合神经网络以识别先前注册的说话者。
-
公开(公告)号:CN112074901B
公开(公告)日:2024-06-04
申请号:CN201980030499.1
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
Abstract: 公开了涉及语音识别登入的示例。一个示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,并且响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。所述方法还包括至少基于所述样本来确立人类讲话者的声纹。
-
公开(公告)号:CN108431733B
公开(公告)日:2021-05-28
申请号:CN201680076681.7
申请日:2016-12-21
Applicant: 微软技术许可有限责任公司
Abstract: 一种用于检测手势的手势检测电子设备,包括IC,其电子集成以下各项:(a)第一接口,连接到(多个)成像设备,(b)第二接口,连接到受控单元,(c)数据存储装置,存储表示手势的序列逻辑模型。序列逻辑模型对预定义手姿态和/或运动的序列进行映射。(d)存储器,存储代码,(e)(多个)处理器,耦合到第一接口和第二接口、数据存储装置和存储器用于执行代码以进行以下各项:(1)接收描绘用户的移动的手的被计时的图像,(2)生成映射运行期手数据集的运行期序列,运行期手数据集各自由指示移动的手的当前状态的离散手值定义,(3)通过使用SSVM函数、与序列逻辑模型相比较而优化运行期序列,来估计哪个(些)手势最好地匹配运行期序列,(4)向受控单元发起(多个)动作。(多个)动作与基于估计而选择的(多个)手势相关联。
-
公开(公告)号:CN112088315A
公开(公告)日:2020-12-15
申请号:CN201980030506.8
申请日:2019-04-30
Applicant: 微软技术许可有限责任公司
IPC: G01S3/801 , G01S5/18 , G10L17/10 , G10L17/00 , G06K9/00 , H04N7/15 , H04N5/232 , G06T7/70 , G06K9/62
Abstract: 使用由一个或多个相机捕获的图像数据以及由麦克风阵列捕获的音频数据来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定每个人类面部的定位。将输入数据提供给在先训练的音频源定位分类器,包括:由每个麦克风捕获的所述音频数据的所述频域表示,以及由每个相机捕获的每个人类面部的定位,其中,每个人类面部的定位表示候选音频源。由分类器基于被估计为所述音频数据所源自的人类面部的输入数据来指示识别出的音频源。
-
-
-
-
-
-
-
-
-