-
公开(公告)号:CN106062867B
公开(公告)日:2019-10-15
申请号:CN201580010713.9
申请日:2015-02-23
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
-
公开(公告)号:CN106688034B
公开(公告)日:2020-11-13
申请号:CN201580048224.2
申请日:2015-09-07
Applicant: 微软技术许可有限责任公司
IPC: G10L13/033
Abstract: 本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中,使用中性模型针对脚本预测情感中性声轨迹,并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中,通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。
-
公开(公告)号:CN107077841B
公开(公告)日:2020-10-16
申请号:CN201580031571.4
申请日:2015-06-12
Applicant: 微软技术许可有限责任公司
Abstract: 本技术与利用循环神经网络(RNN)来将文本转换为语音相关。循环神经网络可以被实现为用于确定文本的特性的多个模块。在实施例中,可以利用词性RNN模块、发音RNN模块、语言注音标记RNN模块、以及上下文感知和语义挖掘RNN模块全部。来自RNN模块的特性是通过基于其他RNN模块的输出来确定输入文本的拼音特性的超结构RNN模块来处理。超结构RNN模块可以生成能够由语音合成器转换为可听见的语音的生成序列。生成序列还可以通过全局优化模块在被合成为可听见的语音之前进行优化。
-
公开(公告)号:CN107077638A
公开(公告)日:2017-08-18
申请号:CN201580031721.1
申请日:2015-06-10
Applicant: 微软技术许可有限责任公司
Abstract: 本技术涉及利用递归神经网络(RNN)执行字母到声音的转换。RNN可以实现为用于进行字母到声音的转换的RNN模块。RNN模块接收文本输入,并将文本转换为对应的音素。在确定对应的音素时,RNN模块可以分析文本的字母和在被分析字母周围的字母。RNN模块还可以以相反次序分析文本的字母。RNN模块还可以接收关于输入文本的上下文信息。字母到声音转换于是还可以基于接收到的上下文信息。确定出的音素可以用于根据输入文本生成合成语音。
-
公开(公告)号:CN107003997A
公开(公告)日:2017-08-01
申请号:CN201580065944.X
申请日:2015-12-02
Applicant: 微软技术许可有限责任公司
IPC: G06F17/27 , G06F17/30 , G10L13/033
CPC classification number: G10L25/63 , G06F17/2785 , G06F17/30976 , G10L13/033 , G10L13/08
Abstract: 在交互式对话系统中用于选择与语义内容相关联的情绪类型代码的技术。在一个方面中,向情绪分类算法提供事实或者简档输入,该情绪分类算法基于事实或者简档输入的具体组合来选择情绪类型。所述情绪分类算法可以是基于规则的或者是从机器学习得到的。可以进一步将先前的用户输入指定为所述情绪分类算法的输入。该技术尤其适用在诸如智能手机的移动通信设备中,其中该事实或者简档输入可以是从设备的多样化的功能集的使用得到的,包括在线接入、文本或者语音通信、日程安排功能等。
-
公开(公告)号:CN110718209B
公开(公告)日:2023-07-18
申请号:CN201910916818.0
申请日:2015-02-23
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
-
公开(公告)号:CN106688034A
公开(公告)日:2017-05-17
申请号:CN201580048224.2
申请日:2015-09-07
Applicant: 微软技术许可有限责任公司
IPC: G10L13/033
CPC classification number: G10L13/027 , G10L13/033
Abstract: 本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中,使用中性模型针对脚本预测情感中性声轨迹,并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中,通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。
-
公开(公告)号:CN110718209A
公开(公告)日:2020-01-21
申请号:CN201910916818.0
申请日:2015-02-23
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
-
公开(公告)号:CN107077841A
公开(公告)日:2017-08-18
申请号:CN201580031571.4
申请日:2015-06-12
Applicant: 微软技术许可有限责任公司
Abstract: 本技术与利用循环神经网络(RNN)来将文本转换为语音相关。循环神经网络可以被实现为用于确定文本的特性的多个模块。在实施例中,可以利用词性RNN模块、发音RNN模块、语言注音标记RNN模块、以及上下文感知和语义挖掘RNN模块全部。来自RNN模块的特性是通过基于其他RNN模块的输出来确定输入文本的拼音特性的超结构RNN模块来处理。超结构RNN模块可以生成能够由语音合成器转换为可听见的语音的生成序列。生成序列还可以通过全局优化模块在被合成为可听见的语音之前进行优化。
-
公开(公告)号:CN106062867A
公开(公告)日:2016-10-26
申请号:CN201580010713.9
申请日:2015-02-23
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
-
-
-
-
-
-
-
-
-