-
公开(公告)号:CN109427325B
公开(公告)日:2022-11-18
申请号:CN201810971707.5
申请日:2018-08-24
Applicant: 株式会社东芝 , 东芝数字解决方案株式会社
Abstract: 一种语音合成字典分发装置,将用于执行语音合成的字典分发至终端,包括:用于语音合成字典数据库的存储装置,储存:包括说话人的声学模型并且与所述说话人的识别信息相关联的第一字典;包括使用多个说话人的声音数据生成的声学模型的第二字典;以及与第二字典一起使用的且与说话人的识别信息相关联的说话人的参数集;确定第一字典和第二字典中的哪一个将在终端中用于特定说话人的处理器;和输入输出接口,接收从终端发送的说话人的识别信息,随后基于所接收的说话人的识别信息和处理器的确定结果分发第一字典、第二字典、和第二字典的参数集中的至少一个。
-
公开(公告)号:CN110431546A
公开(公告)日:2019-11-08
申请号:CN201780088429.2
申请日:2017-09-25
Applicant: 株式会社东芝 , 东芝数字解决方案株式会社
IPC: G06F16/63 , G06F16/683
Abstract: 发音者检索装置(10)具备第一变换部(14B)、受理部(14C)和检索部(14D)。第一变换部(14B)使用用于将表示声质特征的得分向量变换成声学模型的第一变换模型(12B)的逆变换模型,将预先登记的声学模型变换成得分向量,并与发音者ID建立对应地登记在得分管理信息(12C)中。受理部(14C)受理得分向量的输入。检索部(14D)从得分管理信息(12C)中检索与受理的得分向量相似的发音者ID。
-
公开(公告)号:CN110431546B
公开(公告)日:2023-10-13
申请号:CN201780088429.2
申请日:2017-09-25
Applicant: 株式会社东芝 , 东芝数字解决方案株式会社
IPC: G06F16/63 , G06F16/683
Abstract: 发音者检索装置(10)具备第一变换部(14B)、受理部(14C)和检索部(14D)。第一变换部(14B)使用用于将表示声质特征的得分向量变换成声学模型的第一变换模型(12B)的逆变换模型,将预先登记的声学模型变换成得分向量,并与发音者ID建立对应地登记在得分管理信息(12C)中。受理部(14C)受理得分向量的输入。检索部(14D)从得分管理信息(12C)中检索与受理的得分向量相似的发音者ID。
-
公开(公告)号:CN109427325A
公开(公告)日:2019-03-05
申请号:CN201810971707.5
申请日:2018-08-24
Applicant: 株式会社东芝 , 东芝数字解决方案株式会社
Abstract: 一种语音合成字典分发装置,将用于执行语音合成的字典分发至终端,包括:用于语音合成字典数据库的存储装置,储存:包括说话人的声学模型并且与所述说话人的识别信息相关联的第一字典;包括使用多个说话人的声音数据生成的声学模型的第二字典;以及与第二字典一起使用的且与说话人的识别信息相关联的说话人的参数集;确定第一字典和第二字典中的哪一个将在终端中用于特定说话人的处理器;和输入输出接口,接收从终端发送的说话人的识别信息,随后基于所接收的说话人的识别信息和处理器的确定结果分发第一字典、第二字典、和第二字典的参数集中的至少一个。
-
公开(公告)号:CN110431621A
公开(公告)日:2019-11-08
申请号:CN201780088311.X
申请日:2017-09-26
Applicant: 东芝数字解决方案株式会社
IPC: G10L13/033 , G10L13/047 , G10L13/06
Abstract: 实施方式的声音合成装置具有声音合成部(10)、讲话者参数存储部(50)、可否利用判定部(60)和讲话者参数控制部(40)。声音合成部(10)能够根据与讲话者特性相关的参数的值即讲话者参数值控制合成声音的讲话者特性。讲话者参数存储部(50)存储已登记讲话者参数值。可否利用判定部(60)根据将所输入的讲话者参数值与已登记讲话者参数值分别比较的结果,判定所输入的讲话者参数值的可否利用。讲话者参数控制部(40)禁止或者限制通过所述可否利用判定部(60)被判定为不可以利用的讲话者参数值的利用。
-
公开(公告)号:CN113724685A
公开(公告)日:2021-11-30
申请号:CN202111029334.8
申请日:2015-09-16
Applicant: 株式会社东芝
IPC: G10L13/033 , G10L13/10 , G10L15/14
Abstract: 本发明的实施方式涉及语音合成模型学习装置、语音合成模型学习方法以及存储介质,能够防止语音劣化和不自然的音素持续长度。实施方式的语音合成模型学习装置,具有:语音语料库存储部,其存储语音数据和所述语音数据的基音标记信息及上下文信息;分析部,其根据所述语音数据,分析基音标记信息的各基音标记时刻的音响特征参数;以及统计模型学习部,其根据所述分析部分析出的音响特征参数,学习包含音响特征参数的输出分布以及基于时刻参数的持续时间长度分布的具有多个状态的统计模型,所述音响特征参数包含基音特征参数。
-
公开(公告)号:CN103021402B
公开(公告)日:2015-09-09
申请号:CN201210058572.6
申请日:2012-03-07
Applicant: 株式会社东芝
IPC: G10L13/02
Abstract: 本发明的实施方式涉及合成字典制作装置及合成字典制作方法。提高声音合成字典的制作效率。合成字典制作装置具备提示单元、录制单元、要否判断单元、字典制作单元和声音合成单元。提示单元向用户提示从上述句子存储单元存储的上述N个(N是自然数,N≥2)句子依次选择的第1句子。录制单元将朗读上述第1句子的用户的声音录制,将该录制波形与上述第1句子相关联存储。要否判断单元,在上述录制单元中存储M个(M是自然数,1≤M<N)上述第1句子的录制波形的状态下,判断要否制作声音合成字典。字典制作单元,在判断需要声音合成字典的制作的场合,制作声音合成字典。声音合成单元,采用由上述字典制作单元制作的声音合成字典,将第2句子变换为合成波形。
-
公开(公告)号:CN101449319A
公开(公告)日:2009-06-03
申请号:CN200680054679.6
申请日:2006-10-19
Applicant: 株式会社东芝
IPC: G10L13/04
CPC classification number: G10L13/04
Abstract: 一种语音合成装置,包括:从外部获取用于语音合成的文本数据的文本获取装置;对文本数据执行形态分析/解析的语言处理器;根据文本数据的与韵律和语言有关的属性,诸如重音和词性,向语音合成器输出合成单元串的韵律处理器;根据合成单元串产生合成语音的语音合成器;以及在输出合成语音被积累后或者在其被输出时顺序地再现规定量的输出合成语音的语音波形输出装置。
-
公开(公告)号:CN101276583A
公开(公告)日:2008-10-01
申请号:CN200810096375.7
申请日:2008-03-28
Applicant: 株式会社东芝
CPC classification number: G10L13/07
Abstract: 在一种语音合成中,选择单元从对应于第一节段序列的第一语音单元串中选择一个串,所述第一节段序列通过将对应于目标语音的音位串分割为节段来获得。选择单元基于对应于第二节段序列的最多W个第二语音单元串,重复实施产生对应于第三节段序列的第三语音单元串,其中所述第二节段序列作为第一序列的部分序列,所述第三节段序列通过对第二序列添加节段来获得,并基于每个第三串的估计值从第三串中选择最多W个串。通过使用每个第三串的惩罚系数来修正每个第三串候选的总成本,来获得该数值。该系数基于涉及语音单元数据获取的速度的限制,并依赖于接近所述限制的程度。
-
公开(公告)号:CN107924678B
公开(公告)日:2021-12-17
申请号:CN201580082427.3
申请日:2015-09-16
Applicant: 株式会社东芝
IPC: G10L13/06
Abstract: 本公开涉及语音合成装置、语音合成方法及存储介质。实施方式的语音合成装置具有:存储部,将具有多个状态的统计模型的各状态下的、包含基音特征参数的音响特征参数的输出分布及基于时刻参数的持续长度分布作为统计模型信息进行存储;制作部,根据与输入文本对应的上下文信息及统计模型信息,制作统计模型序列;决定部,使用基于统计模型序列的各统计模型的各状态的持续长度分布而得到的持续时间长度及基于基音特征参数的输出分布而得到的基音信息,决定各状态的基音波形数;生成部,基于基音波形数来生成音响特征参数的输出分布列,基于该输出分布列来生成音响特征参数;及波形生成部,根据所生成的音响特征参数来生成语音波形。
-
-
-
-
-
-
-
-
-