Patent search ap:("微软技术许可有限责任公司") AND inv:"赵晟" Page 1

1.

发明公开
用于文本到语音的超结构循环神经网络有权

公开(公告)号：CN107077841A

公开(公告)日：2017-08-18

申请号：CN201580031571.4

申请日：2015-06-12

Applicant: 微软技术许可有限责任公司

Inventor： 赵培 , M·梁 , 姚开盛 , B·严 , 赵晟 , F·A·阿勒瓦

IPC: G10L13/10 , G06N3/04

Abstract: 本技术与利用循环神经网络(RNN)来将文本转换为语音相关。循环神经网络可以被实现为用于确定文本的特性的多个模块。在实施例中，可以利用词性RNN模块、发音RNN模块、语言注音标记RNN模块、以及上下文感知和语义挖掘RNN模块全部。来自RNN模块的特性是通过基于其他RNN模块的输出来确定输入文本的拼音特性的超结构RNN模块来处理。超结构RNN模块可以生成能够由语音合成器转换为可听见的语音的生成序列。生成序列还可以通过全局优化模块在被合成为可听见的语音之前进行优化。

2.

发明公开
用于自动语音识别(ASR)的上下文拼写校正(CSC) 审中-实审

公开(公告)号：CN116057534A

公开(公告)日：2023-05-02

申请号：CN202180052809.7

申请日：2021-06-15

Applicant: 微软技术许可有限责任公司

Inventor： 王晓强 , 刘砚清 , 赵晟 , 李锦宇

IPC: G06F40/295

Abstract: 用于语音识别的新颖解决方案提供了用于自动语音识别(ASR)的上下文拼写校正(CSC)。所公开的示例包括：接收音频流；对该音频流执行ASR处理以产生ASR假设；接收上下文列表；以及至少基于该ASR假设和该上下文列表来执行拼写校正以产生输出文本序列。在ASR模型之上使用上下文拼写校正(CSC)模型，这排除了改变原始ASR模型的需要。这准许基于上下文数据的运行时用户定制，即使对于大型上下文列表也是如此。一些示例包括过滤针对音频流的ASR假设，并且至少基于ASR假设过滤来确定是否要触发针对该ASR假设的拼写校正。一些示例包括使用具有上下文短语的经预处理转录来生成文本到语音(TTS)音频，以训练CSC模型。

3.

发明公开
用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法审中-实审

公开(公告)号：CN114203147A

公开(公告)日：2022-03-18

申请号：CN202010885556.9

申请日：2020-08-28

Applicant: 微软技术许可有限责任公司

Inventor： 潘诗锋 , 何磊 , 李玉林 , 赵晟 , 马春玲

IPC: G10L13/02 , G10L13/04 , G10L13/08 , G10L13/10 , G10L25/18 , G10L25/30

Abstract: 各系统被配置成用于通过以下操作来生成由目标说话者的声音音色以及源说话者的韵律样式所表征的频谱图数据：将源说话者数据的波形转换成语音后验图(PPG)数据，从源说话者数据中提取附加韵律特征，以及基于PPG数据和所提取的韵律特征来生成频谱图。各系统被配置成利用/训练机器学习模型以用于生成频谱图数据以及用于用所生成的频谱图数据来训练神经的、文本到语音的模型。

4.

发明公开
混合文本到语音审中-实审

公开(公告)号：CN116235244A

公开(公告)日：2023-06-06

申请号：CN202180061101.8

申请日：2021-04-26

Applicant: 微软技术许可有限责任公司

Inventor： 李金柱 , 吴光宇 , 李玉林 , 魏银河 , 赵晟 , 陈宽

IPC: G10L13/08

Abstract: 一种用于从用户应用接收文本数据的混合文本到语音(TTS)系统的系统和方法；确定所接收的文本数据从该高速缓存中丢失；向远程TTS引擎并向设备中的TTS引擎两者发送所接收的文本数据；从该远程TTS引擎和该设备中的该TTS引擎两者接收语音数据；以及基于选择策略来选择或组合来自该远程TTS引擎或该设备中的该TTS引擎的语音数据。该语音数据被传送到该用户应用。

5.

发明授权
用于文本到语音的超结构循环神经网络有权

公开(公告)号：CN107077841B

公开(公告)日：2020-10-16

申请号：CN201580031571.4

申请日：2015-06-12

Applicant: 微软技术许可有限责任公司

Inventor： 赵培 , M·梁 , 姚开盛 , B·严 , 赵晟 , F·A·阿勒瓦

IPC: G10L13/10 , G06N3/04

Abstract: 本技术与利用循环神经网络(RNN)来将文本转换为语音相关。循环神经网络可以被实现为用于确定文本的特性的多个模块。在实施例中，可以利用词性RNN模块、发音RNN模块、语言注音标记RNN模块、以及上下文感知和语义挖掘RNN模块全部。来自RNN模块的特性是通过基于其他RNN模块的输出来确定输入文本的拼音特性的超结构RNN模块来处理。超结构RNN模块可以生成能够由语音合成器转换为可听见的语音的生成序列。生成序列还可以通过全局优化模块在被合成为可听见的语音之前进行优化。

6.

发明公开
基于先进的递归神经网络的“字母到声音” 无效

公开(公告)号：CN107077638A

公开(公告)日：2017-08-18

申请号：CN201580031721.1

申请日：2015-06-10

Applicant: 微软技术许可有限责任公司

Inventor： 赵培 , 姚开盛 , M·梁 , 黄美玉 , 赵晟 , B·严 , G·茨威格 , F·A·阿勒瓦

IPC: G06N3/04 , G10L13/04

Abstract: 本技术涉及利用递归神经网络(RNN)执行字母到声音的转换。RNN可以实现为用于进行字母到声音的转换的RNN模块。RNN模块接收文本输入，并将文本转换为对应的音素。在确定对应的音素时，RNN模块可以分析文本的字母和在被分析字母周围的字母。RNN模块还可以以相反次序分析文本的字母。RNN模块还可以接收关于输入文本的上下文信息。字母到声音转换于是还可以基于接收到的上下文信息。确定出的音素可以用于根据输入文本生成合成语音。

7.

发明公开
一种流式、轻量级和高质量的设备神经TTS系统审中-实审

公开(公告)号：CN117256029A

公开(公告)日：2023-12-19

申请号：CN202280031186.X

申请日：2022-01-18

Applicant: 微软技术许可有限责任公司

Inventor： 李金柱 , 赵晟 , 吴光宇 , 李玉林 , 刘砚清

IPC: G10L25/30

Abstract: 提供了用于生成轻量级、高质量的流式文本到语音(TTS)系统的系统和方法。例如，一些公开的系统被配置成获得包括卷积神经网络的一个或多个层的第一模型。该卷积神经网络的每一层被配置成从先前的输入生成新的输出。该系统还获得包括递归神经网络的第二模型。在获得该第一模型和该第二模型之后，系统被配置成以并行架构编译该卷积神经网络的该一个或多个层和该递归神经网络以生成机器学习模块，使得该机器学习模块的每个模型被配置成同时接收输入。

8.

发明公开
文本到语音模型和个性化模型生成的话音的受控训练和使用审中-实审

公开(公告)号：CN114938679A

公开(公告)日：2022-08-23

申请号：CN202080092553.8

申请日：2020-11-03

Applicant: 微软技术许可有限责任公司

Inventor： 赵晟 , L·蒋 , X·黄 , L·秦 , 何磊 , 丁秉公 , B·严 , 马春玲 , R·奥伯洛伊

IPC: G10L13/02

Abstract: 系统被配置成通过以下操作来以个性化话音生成文本到语音数据：在从特定用户收集的自然语音数据上训练文本到语音机器学习模型，确认从其收集数据的用户的身份，以及授权来自用户的使用个性化话音来生成新语音数据的请求。系统被进一步配置成用所生成的个性化语音数据来将机器学习模型训练为神经文本到语音模型。

9.

发明公开
语音合成和语音识别审中-实审

公开(公告)号：CN113948064A

公开(公告)日：2022-01-18

申请号：CN202010620533.5

申请日：2020-06-30

Applicant: 微软技术许可有限责任公司

Inventor： 谭旭 , 秦涛 , 干俊伟 , 赵晟 , 刘铁岩

IPC: G10L15/06 , G10L15/02 , G10L13/02 , G10L13/08

Abstract: 根据本公开的实现，提出了用于语音合成和语音识别的方案。根据该方案，支持至少一种语言的语音合成(TTS)模型和自动语音识别(ASR)模型被获取。基于目标语言的第一组配对数据来调整该TTS模型和ASR模型，以支持目标语言。然后，基于第一组配对数据和由ASR模型生成的该目标语言的第一组合成配对数据来优化该TTS模型，同时基于第一组配对数据和由TTS模型生成的该目标语言的第二组合成配对数据来优化该ASR模型。以此方式，该方案能够利用较少的训练数据为缺乏训练数据的语言提供具有较高准确性的TTS模型和ASR模型。

10.

发明公开
使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆审中-实审

公开(公告)号：CN117597728A

公开(公告)日：2024-02-23

申请号：CN202280046394.7

申请日：2022-04-13

Applicant: 微软技术许可有限责任公司

Inventor： 李博涵 , 何磊 , 邓妍 , 刘冰 , 刘砚清 , 赵晟

IPC: G10L13/033

Abstract: 提供了用于被配置成零样本学习的经个性化的文本到语音模型的机器学习模型的系统和方法，该模型包括特征提取器、说话者编码器和文本到语音模块。该特征提取器被配置成从与该新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。该说话者编码器被配置成基于从该新的目标参考语音提取的声学特征来生成与该新的目标说话者相对应的说话者嵌入。该文本到语音模块被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音，而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification