Patent search ap:("微软技术许可有限责任公司") AND inv:"何磊" Page 3

21.

发明公开
利用多级别上下文特征的神经文本到语音合成有权

公开(公告)号：CN112489618A

公开(公告)日：2021-03-12

申请号：CN201910864208.0

申请日：2019-09-12

Applicant: 微软技术许可有限责任公司

Inventor： 张少飞 , 何磊

IPC: G10L13/047 , G10L13/07 , G10L13/08 , G10L25/30

Abstract: 本公开提供了一种用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入。可以生成所述文本输入的音素特征。可以基于与所述文本输入相关联的一组句子来生成所述文本输入的上下文特征。可以基于所述音素特征和所述上下文特征来生成与所述文本输入相对应的语音波形。

22.

发明公开
语音波形生成有权

公开(公告)号：CN111602194A

公开(公告)日：2020-08-28

申请号：CN201880085612.1

申请日：2018-09-30

Applicant: 微软技术许可有限责任公司

Inventor： 崔洋 , 汪曦 , 何磊 , 宋謌平

IPC: G10L13/00

Abstract: 本公开内容提供了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征，其中声门特征包括相位特征、形状特征和能量特征。基于基频信息和声门特征通过第一神经网络模型来生成声门波形。基于声门波形和声道特征通过第二神经网络模型来生成语音波形。

23.

发明公开
具有情感内容的文字至语音转换有权

公开(公告)号：CN106688034A

公开(公告)日：2017-05-17

申请号：CN201580048224.2

申请日：2015-09-07

Applicant: 微软技术许可有限责任公司

Inventor： 栾剑 , 何磊 , M·梁

IPC: G10L13/033

CPC classification number: G10L13/027 , G10L13/033

Abstract: 本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中，使用中性模型针对脚本预测情感中性声轨迹，并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中，通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。

24.

发明公开
用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法审中-实审

公开(公告)号：CN114203147A

公开(公告)日：2022-03-18

申请号：CN202010885556.9

申请日：2020-08-28

Applicant: 微软技术许可有限责任公司

Inventor： 潘诗锋 , 何磊 , 李玉林 , 赵晟 , 马春玲

IPC: G10L13/02 , G10L13/04 , G10L13/08 , G10L13/10 , G10L25/18 , G10L25/30

Abstract: 各系统被配置成用于通过以下操作来生成由目标说话者的声音音色以及源说话者的韵律样式所表征的频谱图数据：将源说话者数据的波形转换成语音后验图(PPG)数据，从源说话者数据中提取附加韵律特征，以及基于PPG数据和所提取的韵律特征来生成频谱图。各系统被配置成利用/训练机器学习模型以用于生成频谱图数据以及用于用所生成的频谱图数据来训练神经的、文本到语音的模型。

25.

发明公开
生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配有权

公开(公告)号：CN113470662A

公开(公告)日：2021-10-01

申请号：CN202010244661.4

申请日：2020-03-31

Applicant: 微软技术许可有限责任公司

Inventor： 叶国力 , Y·黄 , 魏文宁 , 何磊 , E·沙玛 , J·吴 , 田垚 , E·C·林 , Y·龚 , 赵蕤 , J·李 , W·M·盖尔

IPC: G10L17/24 , G10L17/04 , G10L13/08 , G10L25/30

Abstract: 提供了用于生成和使用文本到语音(TTS)数据以供改进的语音识别模型的系统、方法和设备。利用关键词无关的基线训练数据来训练主模型。在一些实例中，利用新的TTS训练数据来修改主模型的声学和语言模型子组件。在一些实例中，新的TTS训练是从用于在基线训练数据中代表不足的关键词的多说话者神经TTS系统获得的。在一些实例中，新的TTS训练数据被用于关键词检出(KWS)应用中的发音学习和关键词相关置信评分的归一化。在一些实例中，新的TTS训练数据被用于语音识别模型中的快速说话者适配。

Patent Agency Ranking