使用神经网络的说话人识别/定位

    公开(公告)号:CN112088403B

    公开(公告)日:2024-11-15

    申请号:CN201980030691.0

    申请日:2019-04-30

    Inventor: 张世雄 肖雄

    Abstract: 提供了利用联合说话人定位/说话人识别神经网络的计算设备和方法。在一个例子中,计算设备接收用户说出的话音的多通道音频信号。从该信号中提取幅度和相位信息特征,并将其输入到通过多人的话音进行训练的联合说话人定位/说话人识别神经网络中。从神经网络接收包括说话人识别特性和位置特性的用户嵌入,并将其与从多个话音中提取的多个注册嵌入进行比较,其中,每个话音与对应的人的身份相关联。至少基于这种比较,使用户与这些人之一的身份匹配,并输出该人的身份。

    在多说话者音频流上训练和使用转录生成模型

    公开(公告)号:CN118451496A

    公开(公告)日:2024-08-06

    申请号:CN202280080966.3

    申请日:2022-10-27

    Abstract: 转录生成模型从多说话者音频流生成转录。获得包括多个说话者的重叠语音的音频数据,并且使用音频数据编码器从所获得的音频数据的音频数据帧生成帧嵌入集合。使用转录生成模型从帧嵌入集合生成词集合和通道改变(CC)符号。CC符号被包括在由不同人同时说出的相邻词对之间。词集合和CC符号被变换为多个转录行,其中基于CC符号将词集合中的词归类到转录行中,并且基于多个转录行来生成多说话者转录。由模型对CC符号的包括实现高效、准确的多说话者转录。

    语音识别登入
    3.
    发明授权

    公开(公告)号:CN112074901B

    公开(公告)日:2024-06-04

    申请号:CN201980030499.1

    申请日:2019-04-30

    Abstract: 公开了涉及语音识别登入的示例。一个示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,并且响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。所述方法还包括至少基于所述样本来确立人类讲话者的声纹。

    使用神经网络的说话人识别/定位

    公开(公告)号:CN112088403A

    公开(公告)日:2020-12-15

    申请号:CN201980030691.0

    申请日:2019-04-30

    Inventor: 张世雄 肖雄

    Abstract: 提供了利用联合说话人定位/说话人识别神经网络的计算设备和方法。在一个例子中,计算设备接收用户说出的话音的多通道音频信号。从该信号中提取幅度和相位信息特征,并将其输入到通过多人的话音进行训练的联合说话人定位/说话人识别神经网络中。从神经网络接收包括说话人识别特性和位置特性的用户嵌入,并将其与从多个话音中提取的多个注册嵌入进行比较,其中,每个话音与对应的人的身份相关联。至少基于这种比较,使用户与这些人之一的身份匹配,并输出该人的身份。

    多模式语音定位
    5.
    发明公开

    公开(公告)号:CN112088315A

    公开(公告)日:2020-12-15

    申请号:CN201980030506.8

    申请日:2019-04-30

    Abstract: 使用由一个或多个相机捕获的图像数据以及由麦克风阵列捕获的音频数据来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定每个人类面部的定位。将输入数据提供给在先训练的音频源定位分类器,包括:由每个麦克风捕获的所述音频数据的所述频域表示,以及由每个相机捕获的每个人类面部的定位,其中,每个人类面部的定位表示候选音频源。由分类器基于被估计为所述音频数据所源自的人类面部的输入数据来指示识别出的音频源。

    语音识别登入
    7.
    发明公开

    公开(公告)号:CN112074901A

    公开(公告)日:2020-12-11

    申请号:CN201980030499.1

    申请日:2019-04-30

    Abstract: 公开了涉及语音识别登入的示例。一个示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,并且响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。所述方法还包括至少基于所述样本来确立人类讲话者的声纹。

    多模式语音定位
    8.
    发明授权

    公开(公告)号:CN112088315B

    公开(公告)日:2024-04-02

    申请号:CN201980030506.8

    申请日:2019-04-30

    Abstract: 使用由一个或多个相机捕获的图像数据以及由麦克风阵列捕获的音频数据来实现多模式语音定位。变换由阵列的每个麦克风捕获的音频数据以获得在多个频率间隔中离散化的频域表示。由每个相机捕获的图像数据被用于确定每个人类面部的定位。将输入数据提供给在先训练的音频源定位分类器,包括:由每个麦克风捕获的所述音频数据的所述频域表示,以及由每个相机捕获的每个人类面部的定位,其中,每个人类面部的定位表示候选音频源。由分类器基于被估计为所述音频数据所源自的人类面部的输入数据来指示识别出的音频源。

Patent Agency Ranking