语音字体说话者以及韵律插值

    公开(公告)号:CN106062867B

    公开(公告)日:2019-10-15

    申请号:CN201580010713.9

    申请日:2015-02-23

    Inventor: 栾剑 L·何 M·梁

    Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。

    具有情感内容的文字至语音转换

    公开(公告)号:CN106688034B

    公开(公告)日:2020-11-13

    申请号:CN201580048224.2

    申请日:2015-09-07

    Inventor: 栾剑 何磊 M·梁

    Abstract: 本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中,使用中性模型针对脚本预测情感中性声轨迹,并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中,通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。

    用于文本到语音的超结构循环神经网络

    公开(公告)号:CN107077841B

    公开(公告)日:2020-10-16

    申请号:CN201580031571.4

    申请日:2015-06-12

    Abstract: 本技术与利用循环神经网络(RNN)来将文本转换为语音相关。循环神经网络可以被实现为用于确定文本的特性的多个模块。在实施例中,可以利用词性RNN模块、发音RNN模块、语言注音标记RNN模块、以及上下文感知和语义挖掘RNN模块全部。来自RNN模块的特性是通过基于其他RNN模块的输出来确定输入文本的拼音特性的超结构RNN模块来处理。超结构RNN模块可以生成能够由语音合成器转换为可听见的语音的生成序列。生成序列还可以通过全局优化模块在被合成为可听见的语音之前进行优化。

    用于交互式对话系统的情绪类型分类

    公开(公告)号:CN107003997A

    公开(公告)日:2017-08-01

    申请号:CN201580065944.X

    申请日:2015-12-02

    Inventor: E·优恩 M·梁

    Abstract: 在交互式对话系统中用于选择与语义内容相关联的情绪类型代码的技术。在一个方面中,向情绪分类算法提供事实或者简档输入,该情绪分类算法基于事实或者简档输入的具体组合来选择情绪类型。所述情绪分类算法可以是基于规则的或者是从机器学习得到的。可以进一步将先前的用户输入指定为所述情绪分类算法的输入。该技术尤其适用在诸如智能手机的移动通信设备中,其中该事实或者简档输入可以是从设备的多样化的功能集的使用得到的,包括在线接入、文本或者语音通信、日程安排功能等。

    语音字体说话者以及韵律插值

    公开(公告)号:CN110718209B

    公开(公告)日:2023-07-18

    申请号:CN201910916818.0

    申请日:2015-02-23

    Inventor: 栾剑 L·何 M·梁

    Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。

    具有情感内容的文字至语音转换

    公开(公告)号:CN106688034A

    公开(公告)日:2017-05-17

    申请号:CN201580048224.2

    申请日:2015-09-07

    Inventor: 栾剑 何磊 M·梁

    CPC classification number: G10L13/027 G10L13/033

    Abstract: 本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中,使用中性模型针对脚本预测情感中性声轨迹,并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中,通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。

    语音字体说话者以及韵律插值

    公开(公告)号:CN110718209A

    公开(公告)日:2020-01-21

    申请号:CN201910916818.0

    申请日:2015-02-23

    Inventor: 栾剑 L·何 M·梁

    Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。

    用于文本到语音的超结构循环神经网络

    公开(公告)号:CN107077841A

    公开(公告)日:2017-08-18

    申请号:CN201580031571.4

    申请日:2015-06-12

    Abstract: 本技术与利用循环神经网络(RNN)来将文本转换为语音相关。循环神经网络可以被实现为用于确定文本的特性的多个模块。在实施例中,可以利用词性RNN模块、发音RNN模块、语言注音标记RNN模块、以及上下文感知和语义挖掘RNN模块全部。来自RNN模块的特性是通过基于其他RNN模块的输出来确定输入文本的拼音特性的超结构RNN模块来处理。超结构RNN模块可以生成能够由语音合成器转换为可听见的语音的生成序列。生成序列还可以通过全局优化模块在被合成为可听见的语音之前进行优化。

    语音字体说话者以及韵律插值

    公开(公告)号:CN106062867A

    公开(公告)日:2016-10-26

    申请号:CN201580010713.9

    申请日:2015-02-23

    Inventor: 栾剑 L·何 M·梁

    Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。

Patent Agency Ranking