多模式语音定位
    4.
    发明授权

    公开(公告)号:CN112088315B

    公开(公告)日:2024-04-02

    申请号:CN201980030506.8

    申请日:2019-04-30

    Abstract: 使用由一个或多个相机捕获的图像数据以及由麦克风阵列捕获的音频数据来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定每个人类面部的定位。将输入数据提供给在先训练的音频源定位分类器,包括:由每个麦克风捕获的所述音频数据的所述频域表示,以及由每个相机捕获的每个人类面部的定位,其中,每个人类面部的定位表示候选音频源。由分类器基于被估计为所述音频数据所源自的人类面部的输入数据来指示识别出的音频源。

    使用查找表进行深度图纠正的方法及装置

    公开(公告)号:CN105518480B

    公开(公告)日:2018-01-26

    申请号:CN201480033840.6

    申请日:2014-06-11

    Inventor: E·克鲁普卡

    CPC classification number: H04N13/128 G01S7/497 G01S17/36 G01S17/89

    Abstract: 描述了使用查找表进行深度图纠正。在一个示例中,可以生成使用从照亮对象的相机发射的光与在相机处接收到的从该对象反射的光之间的相位差来测量到对象的深度的深度图。在各实施例中,深度图可能遭受收到光在被相机接收之前经历多次反射所导致的误差。在一示例中,对估计出的对象深度的纠正可以被计算并存储在查找表中,该查找表将收到光的振幅和相位映射到深度纠正。在一示例中,每一调频的振幅和频率可用于访问查找表,该查找表存储对对象深度的纠正并且允许获得准确的深度图。

    使用查找表进行深度图纠正

    公开(公告)号:CN105518480A

    公开(公告)日:2016-04-20

    申请号:CN201480033840.6

    申请日:2014-06-11

    Inventor: E·克鲁普卡

    CPC classification number: H04N13/128 G01S7/497 G01S17/36 G01S17/89

    Abstract: 描述了使用查找表进行深度图纠正。在一个示例中,可以生成使用从照亮对象的相机发射的光与在相机处接收到的从该对象反射的光之间的相位差来测量到对象的深度的深度图。在各实施例中,深度图可能遭受收到光在被相机接收之前经历多次反射所导致的误差。在一示例中,对估计出的对象深度的纠正可以被计算并存储在查找表中,该查找表将收到光的振幅和相位映射到深度纠正。在一示例中,每一调频的振幅和频率可用于访问查找表,该查找表存储对对象深度的纠正并且允许获得准确的深度图。

    用于说话者识别的联合神经网络

    公开(公告)号:CN112088402B

    公开(公告)日:2024-07-26

    申请号:CN201980030685.5

    申请日:2019-04-27

    Abstract: 一种说话者识别系统包括先前训练的联合神经网络。说话者识别系统的注册机被配置为基于体现新说话者的特征的视听数据,操作先前训练的联合神经网络来注册新说话者。说话者识别系统的识别机被配置为基于体现先前注册的说话者的特征的视听数据,操作先前训练的联合神经网络以识别先前注册的说话者。

    语音识别登入
    8.
    发明授权

    公开(公告)号:CN112074901B

    公开(公告)日:2024-06-04

    申请号:CN201980030499.1

    申请日:2019-04-30

    Abstract: 公开了涉及语音识别登入的示例。一个示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,并且响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。所述方法还包括至少基于所述样本来确立人类讲话者的声纹。

    用于手势检测的电子设备

    公开(公告)号:CN108431733B

    公开(公告)日:2021-05-28

    申请号:CN201680076681.7

    申请日:2016-12-21

    Abstract: 一种用于检测手势的手势检测电子设备,包括IC,其电子集成以下各项:(a)第一接口,连接到(多个)成像设备,(b)第二接口,连接到受控单元,(c)数据存储装置,存储表示手势的序列逻辑模型。序列逻辑模型对预定义手姿态和/或运动的序列进行映射。(d)存储器,存储代码,(e)(多个)处理器,耦合到第一接口和第二接口、数据存储装置和存储器用于执行代码以进行以下各项:(1)接收描绘用户的移动的手的被计时的图像,(2)生成映射运行期手数据集的运行期序列,运行期手数据集各自由指示移动的手的当前状态的离散手值定义,(3)通过使用SSVM函数、与序列逻辑模型相比较而优化运行期序列,来估计哪个(些)手势最好地匹配运行期序列,(4)向受控单元发起(多个)动作。(多个)动作与基于估计而选择的(多个)手势相关联。

    多模式语音定位
    10.
    发明公开

    公开(公告)号:CN112088315A

    公开(公告)日:2020-12-15

    申请号:CN201980030506.8

    申请日:2019-04-30

    Abstract: 使用由一个或多个相机捕获的图像数据以及由麦克风阵列捕获的音频数据来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定每个人类面部的定位。将输入数据提供给在先训练的音频源定位分类器,包括:由每个麦克风捕获的所述音频数据的所述频域表示,以及由每个相机捕获的每个人类面部的定位,其中,每个人类面部的定位表示候选音频源。由分类器基于被估计为所述音频数据所源自的人类面部的输入数据来指示识别出的音频源。

Patent Agency Ranking