-
公开(公告)号:CN107924678B
公开(公告)日:2021-12-17
申请号:CN201580082427.3
申请日:2015-09-16
Applicant: 株式会社东芝
IPC: G10L13/06
Abstract: 本公开涉及语音合成装置、语音合成方法及存储介质。实施方式的语音合成装置具有:存储部,将具有多个状态的统计模型的各状态下的、包含基音特征参数的音响特征参数的输出分布及基于时刻参数的持续长度分布作为统计模型信息进行存储;制作部,根据与输入文本对应的上下文信息及统计模型信息,制作统计模型序列;决定部,使用基于统计模型序列的各统计模型的各状态的持续长度分布而得到的持续时间长度及基于基音特征参数的输出分布而得到的基音信息,决定各状态的基音波形数;生成部,基于基音波形数来生成音响特征参数的输出分布列,基于该输出分布列来生成音响特征参数;及波形生成部,根据所生成的音响特征参数来生成语音波形。
-
公开(公告)号:CN113724685A
公开(公告)日:2021-11-30
申请号:CN202111029334.8
申请日:2015-09-16
Applicant: 株式会社东芝
IPC: G10L13/033 , G10L13/10 , G10L15/14
Abstract: 本发明的实施方式涉及语音合成模型学习装置、语音合成模型学习方法以及存储介质,能够防止语音劣化和不自然的音素持续长度。实施方式的语音合成模型学习装置,具有:语音语料库存储部,其存储语音数据和所述语音数据的基音标记信息及上下文信息;分析部,其根据所述语音数据,分析基音标记信息的各基音标记时刻的音响特征参数;以及统计模型学习部,其根据所述分析部分析出的音响特征参数,学习包含音响特征参数的输出分布以及基于时刻参数的持续时间长度分布的具有多个状态的统计模型,所述音响特征参数包含基音特征参数。
-
公开(公告)号:CN105280177A
公开(公告)日:2016-01-27
申请号:CN201510404746.3
申请日:2015-07-10
Applicant: 株式会社东芝
IPC: G10L13/06 , G10L13/08 , G10L13/047
CPC classification number: G10L13/00
Abstract: 本发明描述了语音合成字典创建装置、语音合成器、以及语音合成字典创建方法。根据实施例,语音合成字典创建装置包括表创建器、估计器、和字典创建器。表创建器被配置为基于采用相应的第一和第二语言的特定说话人的语音合成字典的节点分布之间的相似性来创建表。估计器被配置为基于采用第一语言的目标说话人的语音和所记录的文本、以及采用第一语言的特定说话人的语音合成字典来估计用于将采用第一语言的特定说话人的语音合成字典变换为采用第一语言的目标说话人的语音合成字典的矩阵。字典创建器被配置为基于表、矩阵、以及采用第二语言的特定说话人的语音合成字典来创建采用第二语言的目标说话人的语音合成字典。
-
公开(公告)号:CN1841497B
公开(公告)日:2010-06-16
申请号:CN200610058504.4
申请日:2006-03-10
Applicant: 株式会社东芝
CPC classification number: G10L13/07
Abstract: 一种语音合成系统,其包括语音单元存储部分,音素环境存储部分,音素序列/韵律信息输入部分,多语音单元选择部分,融合语音单元序列生成部分,以及融合语音单元修改/拼接部分。通过在所述融合语音单元序列生成部分中融合多个选中的语音单元,来生成融合语音单元。在所述融合语音单元序列生成部分中,为选中的M个语音单元计算平均功率信息,将所述N个语音单元融合在一起,并校正所述融合语音单元的所述功率信息,使其等于所述M个语音单元的所述平均功率信息。
-
公开(公告)号:CN101369423A
公开(公告)日:2009-02-18
申请号:CN200810215486.5
申请日:2008-08-15
Applicant: 株式会社东芝
Abstract: 与目标语音对应的音素序列被分割成多个段。对于每个段,从存储具有至少一个帧的语音单元的语音单元存储器中选择多个语音单元。多个语音单元具有与目标语音一致或相似的韵律特征。对于多个语音单元的每个帧,生成具有至少一个共振峰频率的共振峰参数。根据多个语音单元的每个帧的共振峰参数生成每个帧的融合共振峰参数。根据每个帧的融合共振峰参数生成每个段的融合语音单元。通过拼接每个段的融合语音单元生成合成语音。
-
公开(公告)号:CN113724685B
公开(公告)日:2024-04-02
申请号:CN202111029334.8
申请日:2015-09-16
Applicant: 株式会社东芝
IPC: G10L13/033 , G10L13/10 , G10L15/14
Abstract: 本发明的实施方式涉及语音合成模型学习装置、语音合成模型学习方法以及存储介质,能够防止语音劣化和不自然的音素持续长度。实施方式的语音合成模型学习装置,具有:语音语料库存储部,其存储语音数据和所述语音数据的基音标记信息及上下文信息;分析部,其根据所述语音数据,分析基音标记信息的各基音标记时刻的音响特征参数;以及统计模型学习部,其根据所述分析部分析出的音响特征参数,学习包含音响特征参数的输出分布以及基于时刻参数的持续时间长度分布的具有多个状态的统计模型,所述音响特征参数包含基音特征参数。
-
公开(公告)号:CN107924686B
公开(公告)日:2022-07-26
申请号:CN201580082452.1
申请日:2015-09-16
Applicant: 株式会社东芝
Abstract: 不仅能够使波形的再现性提高而且能够高速地生成波形。实施方式的语音处理装置具有频谱参数算出部、相位谱算出部、群延迟谱算出部、频带群延迟参数算出部以及频带群延迟修正参数算出部。频谱参数算出部算出频谱参数。相位谱算出部算出第1相位谱。群延迟谱算出部基于第1相位谱的频率成分,根据第1相位谱算出群延迟谱。频带群延迟参数算出部根据群延迟谱算出预定频率范围中的频带群延迟参数。频带群延迟修正参数算出部算出对根据频带群延迟参数重新构建所得到的第2相位谱与第1相位谱之差进行修正的频带群延迟修正参数。
-
公开(公告)号:CN114694632A
公开(公告)日:2022-07-01
申请号:CN202210403587.5
申请日:2015-09-16
Applicant: 株式会社东芝
IPC: G10L13/047 , G10L13/06 , G10L25/18
Abstract: 能使波形的再现性提高且能高速生成波形。语音处理装置具有:存储部,存储对相移后的脉冲信号进行频带分割得到的相移频带脉冲信号;延迟时间算出部,根据从各时刻的语音帧的相位谱算出的群延迟谱的预定频率范围中的频带群延迟参数算出相移频带脉冲信号的延迟时间;相位算出部,根据频带群延迟参数及从频带群延迟参数生成的对相位信息进行修正的频带群延迟修正参数算出边界频率的相位;选择部,基于所算出的各频带的相位从存储部选择对应的相移频带脉冲信号;叠加部,通过使所选择的相移频带脉冲信号按照延迟时间延迟并叠加,生成相移后的声源信号;及声道滤波部,应用与针对输入语音的各语音帧算出的频谱参数对应的声道滤波器输出语音波形。
-
公开(公告)号:CN114464208A
公开(公告)日:2022-05-10
申请号:CN202210141126.5
申请日:2015-09-16
Applicant: 株式会社东芝
IPC: G10L21/10 , G10L13/033 , G10L19/02
Abstract: 不仅能够使波形的再现性提高而且能够高速地生成波形。实施方式的语音处理装置具有:振幅信息生成部,其基于针对输入语音的各语音帧所算出的频谱参数序列,生成振幅信息;相位信息生成部,其根据从所述各语音帧的相位谱所算出的群延迟谱的预定频率范围中的频带群延迟参数序列、和对从所述频带群延迟参数序列所生成的相位谱与所述各语音帧的相位谱之差进行修正的频带群延迟修正参数序列,生成相位信息;以及语音波形生成部,其在由作为各参数的时刻信息的参数序列时刻信息所确定的各时刻,根据所述振幅信息及所述相位信息生成语音波形。
-
公开(公告)号:CN101004910A
公开(公告)日:2007-07-25
申请号:CN200710004269.7
申请日:2007-01-19
Applicant: 株式会社东芝
CPC classification number: G10L13/033 , G10L2021/0135
Abstract: 根据本发明实施例的一种语音处理装置,包括:转换源说话人语音单元数据库;语音转换规则学习数据生成装置;以及语音转换规则学习装置,通过其制定语音转换规则。所述语音转换规则学习数据生成装置包括:转换目标说话人语音单元提取装置;属性信息生成装置;转换源说话人语音单元数据库;以及转换源说话人语音单元选择装置。所述转换源说话人语音单元选择装置基于在转换目标说话人语音单元的属性信息和转换源说话人语音单元的属性信息之间的失配来选择对应于转换目标说话人语音单元的转换源说话人语音单元,由此从所选择的转换目标说话人语音单元和转换源说话人语音单元的对来制定语音转换规则。
-
-
-
-
-
-
-
-
-