Patent search ap:("微软技术许可有限责任公司") AND inv:"何磊" Page 1

1.

发明公开
数字音频的鲁棒认证审中-实审

公开(公告)号：CN117223055A

公开(公告)日：2023-12-12

申请号：CN202180059403.1

申请日：2021-05-08

Applicant: 微软技术许可有限责任公司

Inventor： 崔洋 , 王科 , 何磊 , F·K-P·宋

IPC: G10L19/018

Abstract: 用于认证数字音频的解决方案包括：使用第一密钥生成第一频带限制水印，使用第二密钥生成第二频带限制水印，其中该第二水印的带宽不与该第一水印的带宽重叠；以及将该第一水印和该第二水印嵌入到该数字音频文件的片段中。各解决方案还包括使用该第一密钥针对该第一水印确定该数字音频文件的片段的第一水印分数；使用该第二密钥针对该第二水印确定该数字音频文件的该片段的第二水印分数；至少基于该第一水印分数和该第二水印分数来确定该数字音频文件带水印的概率；以及生成指示该数字音频文件是否带水印的报告。在一些示例中，各解决方案还可以嵌入和解码消息。

2.

发明公开
具有多级别文本信息的神经文本到语音合成有权

公开(公告)号：CN112352275A

公开(公告)日：2021-02-09

申请号：CN201880091963.3

申请日：2018-12-13

Applicant: 微软技术许可有限责任公司

Inventor： 明怀平 , 何磊

IPC: G10L13/00

Abstract: 用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入(1310)。可以基于所述文本输入来生成音素或字符级别文本信息(1320)。可以基于所述文本输入来生成上下文敏感文本信息(1330)。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征(1340)。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形(1350)。

3.

发明公开
多语言神经文本到语音合成有权

公开(公告)号：CN112185337A

公开(公告)日：2021-01-05

申请号：CN201910588478.3

申请日：2019-07-02

Applicant: 微软技术许可有限责任公司

Inventor： 杨径舟 , 何磊

IPC: G10L13/02 , G10L13/08 , G10L19/04 , G10L25/30

Abstract: 本公开提供了用于通过多语言神经文本到语音(TTS)合成来生成语音的方法和装置。可以接收采用至少第一语言的文本输入。可以通过讲话者编码器来提供目标讲话者的讲话者潜在空间信息。可以通过语言编码器来提供第二语言的语言潜在空间信息。可以通过声学特征预测器，基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征。可以通过神经声码器，基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。

4.

发明公开
多说话者神经文本到语音合成有权

公开(公告)号：CN111954903A

公开(公告)日：2020-11-17

申请号：CN201880091361.8

申请日：2018-12-11

Applicant: 微软技术许可有限责任公司

Inventor： 邓妍 , 何磊

IPC: G10L13/08 , G10L13/033

Abstract: 提供了用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法。可以接收文本输入(1410)。可以通过至少一个说话者模型，提供目标说话者的说话者潜在空间信息(1420)。可以通过声学特征预测器，基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征(1430)。可以通过神经声码器，基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形(1440)。

5.

发明授权
具有情感内容的文字至语音转换有权

公开(公告)号：CN106688034B

公开(公告)日：2020-11-13

申请号：CN201580048224.2

申请日：2015-09-07

Applicant: 微软技术许可有限责任公司

Inventor： 栾剑 , 何磊 , M·梁

IPC: G10L13/033

Abstract: 本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中，使用中性模型针对脚本预测情感中性声轨迹，并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中，通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。

6.

发明授权
生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配有权

公开(公告)号：CN113470662B

公开(公告)日：2024-08-27

申请号：CN202010244661.4

申请日：2020-03-31

Applicant: 微软技术许可有限责任公司

Inventor： 叶国力 , Y·黄 , 魏文宁 , 何磊 , E·沙玛 , J·吴 , 田垚 , E·C·林 , Y·龚 , 赵蕤 , J·李 , W·M·盖尔

IPC: G10L17/24 , G10L17/04 , G10L13/08 , G10L25/30

Abstract: 提供了用于生成和使用文本到语音(TTS)数据以供改进的语音识别模型的系统、方法和设备。利用关键词无关的基线训练数据来训练主模型。在一些实例中，利用新的TTS训练数据来修改主模型的声学和语言模型子组件。在一些实例中，新的TTS训练是从用于在基线训练数据中代表不足的关键词的多说话者神经TTS系统获得的。在一些实例中，新的TTS训练数据被用于关键词检出(KWS)应用中的发音学习和关键词相关置信评分的归一化。在一些实例中，新的TTS训练数据被用于语音识别模型中的快速说话者适配。

7.

发明授权
多语言神经文本到语音合成有权

公开(公告)号：CN112185337B

公开(公告)日：2024-04-26

申请号：CN201910588478.3

申请日：2019-07-02

Applicant: 微软技术许可有限责任公司

Inventor： 杨径舟 , 何磊

IPC: G10L13/02 , G10L13/08 , G10L19/04 , G10L25/30

Abstract: 本公开提供了用于通过多语言神经文本到语音(TTS)合成来生成语音的方法和装置。可以接收采用至少第一语言的文本输入。可以通过讲话者编码器来提供目标讲话者的讲话者潜在空间信息。可以通过语言编码器来提供第二语言的语言潜在空间信息。可以通过声学特征预测器，基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征。可以通过神经声码器，基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。

8.

发明授权
多说话者神经文本到语音合成有权

公开(公告)号：CN111954903B

公开(公告)日：2024-03-15

申请号：CN201880091361.8

申请日：2018-12-11

Applicant: 微软技术许可有限责任公司

Inventor： 邓妍 , 何磊

IPC: G10L13/08 , G10L13/033

Abstract: 提供了用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法。可以接收文本输入(1410)。可以通过至少一个说话者模型，提供目标说话者的说话者潜在空间信息(1420)。可以通过声学特征预测器，基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征(1430)。可以通过神经声码器，基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形(1440)。

9.

发明授权
语音波形生成有权

公开(公告)号：CN111602194B

公开(公告)日：2023-07-04

申请号：CN201880085612.1

申请日：2018-09-30

Applicant: 微软技术许可有限责任公司

Inventor： 崔洋 , 汪曦 , 何磊 , 宋謌平

IPC: G10L13/00

Abstract: 本公开内容提供了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征，其中声门特征包括相位特征、形状特征和能量特征。基于基频信息和声门特征通过第一神经网络模型来生成声门波形。基于声门波形和声道特征通过第二神经网络模型来生成语音波形。

10.

发明公开
文本到语音模型和个性化模型生成的话音的受控训练和使用审中-实审

公开(公告)号：CN114938679A

公开(公告)日：2022-08-23

申请号：CN202080092553.8

申请日：2020-11-03

Applicant: 微软技术许可有限责任公司

Inventor： 赵晟 , L·蒋 , X·黄 , L·秦 , 何磊 , 丁秉公 , B·严 , 马春玲 , R·奥伯洛伊

IPC: G10L13/02

Abstract: 系统被配置成通过以下操作来以个性化话音生成文本到语音数据：在从特定用户收集的自然语音数据上训练文本到语音机器学习模型，确认从其收集数据的用户的身份，以及授权来自用户的使用个性化话音来生成新语音数据的请求。系统被进一步配置成用所生成的个性化语音数据来将机器学习模型训练为神经文本到语音模型。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification