Patent search ap:("腾讯科技(深圳)有限公司") AND inv:"俞栋" Page 1

1.

发明授权
一种韵律层级标注的方法、模型训练的方法及装置有权

公开(公告)号：CN109697973B

公开(公告)日：2024-07-19

申请号：CN201910060152.3

申请日：2019-01-22

Applicant: 清华大学深圳研究生院 , 腾讯科技(深圳)有限公司

Inventor： 吴志勇 , 杜耀 , 康世胤 , 苏丹 , 俞栋

IPC: G10L13/02 , G10L13/08 , G10L13/10

Abstract: 本发明公开了一种韵律层级标注的方法，包括：获取待标注文本数据以及音频数据，其中，待标注文本数据与音频数据之间具有对应关系；根据待标注文本数据提取每个词语的待标注文本特征集合；根据音频数据提取每个词语的声学特征集合；根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合，通过韵律层级标注模型获取韵律层级结构。本发明还公开了一种模型训练的方法、韵律层级标注装置和模型训练装置。本发明联合文本特征以及声学特征建立韵律层级标注模型，可以为韵律层级的标注提供更加丰富的特征，提高韵律层级标注的准确性，提升语音合成的效果。

2.

发明授权
混合语音识别网络训练方法、混合语音识别方法、装置及存储介质有权

公开(公告)号：CN111445905B

公开(公告)日：2023-08-08

申请号：CN201910746274.8

申请日：2018-05-24

Applicant: 腾讯科技(深圳)有限公司

Inventor： 王珺 , 陈杰 , 苏丹 , 俞栋

IPC: G10L15/22 , G10L15/02 , G10L15/07 , G10L15/06 , G10L15/16 , G10L25/24 , G10L25/30

Abstract: 本申请提供了混合语音识别网络训练方法，包括：通过混合语音识别网络中的深度神经网络获取混合语音样本，通过混合语音识别网络对混合语音样本的向量和相应的有监督标注进行处理，形成目标对象在向量空间的语音提取子；通过混合语音识别网络，利用混合语音样本的向量和语音提取子确定目标对象的掩码；通过目标对象的掩码与目标对象的参考语音对混合语音识别网络的参数进行更新。本申请还提供了混合语音识别方法、装置及存储介质。本申请可从混合语音中确定出目标对象的语音，方便对混合语音中目标对象的语音进行追踪，同时在混合语音识别网络训练过程中仅需要混合语音样本有效减少了训练阶段的样本数量，提升了混合语音识别网络的训练效率。

3.

发明授权
一种基于人工智能的智能设备唤醒方法和装置有权

公开(公告)号：CN110570840B

公开(公告)日：2022-07-05

申请号：CN201910867222.6

申请日：2019-09-12

Applicant: 腾讯科技(深圳)有限公司

Inventor： 陈杰 , 苏丹 , 王珺 , 俞栋

IPC: G10L15/02 , G10L15/16 , G10L15/22 , G10L25/24

Abstract: 本申请实施例公开了一种基于人工智能的智能设备唤醒方法，针对获取的待识别音频，通过分析其中音频帧的音频特征数据来确定是否满足智能设备的唤醒条件。若根据其中的目标音频帧确定满足唤醒条件，获取音频帧序列的多个音频特征数据，音频帧序列包括目标音频帧和目标音频帧在待识别音频中的相邻音频帧，通过目标声学模型确定该多个音频特征数据分别对应的后验概率，每一个音频帧的后验概率可以用于标识根据这个音频特征数据指示唤醒的概率。目标声学模型需要根据音频帧序列所确定的全部后验概率来整体确定是否唤醒，当音频帧序列中没有携带完整唤醒词对应的音频信息时，目标声学模型可以有效的阻止唤醒，降低了误唤醒的出现频率，提高了用户体验。

4.

发明授权
语音识别方法及装置、神经网络训练方法及装置有权

公开(公告)号：CN110600018B

公开(公告)日：2022-04-26

申请号：CN201910838469.5

申请日：2019-09-05

Applicant: 腾讯科技(深圳)有限公司

Inventor： 王珺 , 林永业 , 苏丹 , 俞栋

IPC: G10L15/16 , G10L15/06

Abstract: 本公开提供一种语音识别方法及装置、神经网络训练方法及装置；涉及人工智能技术领域。该神经网络训练方法包括：获取样本数据，所述样本数据包括混合语音频谱及其标注音素；通过第一子网络从混合语音频谱中提取目标语音频谱；通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；通过第三子网络，基于所述中间过渡表征进行音素识别；根据所述音素识别的结果以及所述标注音素，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。本公开可以提升在复杂干扰声条件下的语音识别性能。

5.

发明授权
语音关键词的识别方法和装置有权

公开(公告)号：CN110444195B

公开(公告)日：2021-12-14

申请号：CN201910740816.0

申请日：2018-01-31

Applicant: 腾讯科技(深圳)有限公司

Inventor： 王珺 , 苏丹 , 俞栋

IPC: G10L15/04 , G10L15/08 , G10L15/16 , G10L15/26 , G10L15/02

Abstract: 本申请涉及一种语音关键词的识别方法，包括：将预定关键词中未作为过待识别分词单元的预定分词单元中，在预定关键词中出现在最前的作为当前待识别分词单元；将基于待识别语音信号获得且未作为过待判断语音片段的第一语音片段中，在待识别语音信号中出现在最前的作为当前待判断语音片段；当当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元在预定关键词不是出现在最后时，返回确定当前待识别分词单元的步骤；当当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元在预定关键词出现在最后时，初步判定待识别语音信号中存在预定关键词。本申请能提高智能语音关键词识别的效率。

6.

发明授权
语音关键词的识别方法和装置有权

公开(公告)号：CN110444193B

公开(公告)日：2021-12-14

申请号：CN201910744233.5

申请日：2018-01-31

Applicant: 腾讯科技(深圳)有限公司

Inventor： 王珺 , 苏丹 , 俞栋

IPC: G10L15/02 , G10L15/04 , G10L15/08 , G10L15/16 , G10L15/26

Abstract: 本申请涉及一种语音关键词的识别方法、装置、存储介质及计算机设备，方法包括：基于预定语料库获取样本语音信号，预定语料库包括通用语料库；基于各样本语音信号获得第三语音片段；获取各第三语音片段的第一声学特征和与各第三语音片段分别对应的各第三概率，第三概率包括该第三语音片段分别对应预定关键词的各预定分词单元的各概率；基于各第三语音片段的第一声学特征和各第三概率对预定的第一神经网络模型进行训练，获得第一分类模型；采用第一分类模型和第二分类模型逐级进行语音关键词的识别；第二分类模型是预先训练的神经网络模型。本申请的方案能提高智能语音关键词识别的普适性。

7.

发明授权
一种韵律层级标注的方法、模型训练的方法及装置有权

公开(公告)号：CN110444191B

公开(公告)日：2021-11-26

申请号：CN201910751371.6

申请日：2019-01-22

Applicant: 清华大学深圳研究生院 , 腾讯科技(深圳)有限公司

Inventor： 吴志勇 , 杜耀 , 康世胤 , 苏丹 , 俞栋

IPC: G10L13/02 , G10L13/08 , G10L13/10

Abstract: 本申请公开了一种韵律层级标注的方法，该方法应用于人工智能领域，具体可应用于语音合成领域，该方法包括：获取待标注文本数据以及音频数据，其中，待标注文本数据与音频数据之间具有对应关系；根据待标注文本数据提取每个词语的待标注文本特征集合；根据音频数据提取每个词语的声学特征集合；根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合，通过韵律层级标注模型获取韵律层级结构。本申请还公开了一种模型训练的方法、韵律层级标注装置和模型训练装置。本申请联合文本特征以及声学特征建立韵律层级标注模型，可以为韵律层级的标注提供更加丰富的特征，提高韵律层级标注的准确性，提升语音合成的效果。

8.

发明授权
混合语音信号的分离方法、装置、存储介质及电子装置有权

公开(公告)号：CN110491409B

公开(公告)日：2021-09-24

申请号：CN201910736585.6

申请日：2019-08-09

Applicant: 腾讯科技(深圳)有限公司

Inventor： 顾容之 , 陈联武 , 张世雄 , 徐勇 , 于蒙 , 苏丹 , 俞栋

IPC: G10L21/0272 , G10L21/0308

Abstract: 本发明提供了一种混合语音信号的分离方法、装置、存储介质及电子装置，包括：获取语音采集装置采集到的混合语音信号，混合语音信号包括至少两个目标对象发出的语音；获取混合语音信号的频域特征形成的第一频域矩阵和所述混合语音信号的空域特征形成的第一空域矩阵；从至少两个目标对象中每两个目标对象与所述语音采集装置之间的夹角中确定角度最小的目标夹角；使用与所述目标夹角对应的权重系数对所述第一空域矩阵进行加权，得到第二空域矩阵；将第一频域矩阵和第二空域矩阵输入到目标神经网络模型，得到所述目标神经网络模型输出的从混合语音信号中分离出的与至少两个目标对象一一对应的多路语音信号。通过本发明，解决了目标夹角较小情况下，语音分离方法性能下降的问题。

9.

发明授权
一种模型训练的方法、媒体信息合成的方法及装置有权

公开(公告)号：CN110852942B

公开(公告)日：2020-12-18

申请号：CN201911140015.7

申请日：2019-11-19

Applicant: 腾讯科技(深圳)有限公司

Inventor： 黄浩智 , 李佳维 , 沈力 , 凌永根 , 刘威 , 俞栋

IPC: G06T3/00 , G06K9/62

Abstract: 本申请公开了一种模型训练的方法、媒体信息合成的方法及装置，能够利用内容遮罩生成待训练图像，而内容遮罩的覆盖范围大于待训练对象的范围，可以使得图像内容和背景之间的部分由信息合成模型生成的，提升了合成视频的真实性。本申请方法包括：获取图像样本集合以及概略提示信息，根据图像样本集合以及概略提示信息，生成内容遮罩集合，根据内容遮罩集合生成待训练图像集合，基于图像样本集合以及待训练图像集合，通过待训练信息合成模型获取预测图像集合，采用目标损失函数对待训练信息合成模型进行训练，得到信息合成模型。

10.

发明授权
混合语音识别方法、装置及计算机可读存储介质有权

公开(公告)号：CN108962237B

公开(公告)日：2020-12-04

申请号：CN201810507294.5

申请日：2018-05-24

Applicant: 腾讯科技(深圳)有限公司

Inventor： 王珺 , 陈杰 , 苏丹 , 俞栋

IPC: G10L15/22 , G10L15/02 , G10L15/07 , G10L15/06 , G10L15/16 , G10L25/24 , G10L25/30

Abstract: 本申请提供了一种混合语音识别方法、混合语音识别装置及计算机可读存储介质。该混合语音识别方法包括：当监听到适应语音和混合语音的输入时，基于所述适应语音获取目标对象的语音特征；基于所述目标对象的语音特征，确定所述混合语音中属于所述目标对象的语音；其中，所述适应语音为包含预设语音信息的语音，所述混合语音为在所述适应语音之后输入的非适应语音。本申请技术方案可从混合语音中确定出目标对象的语音，方便对混合语音中目标对象的语音进行追踪。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification