-
公开(公告)号:CN113724685A
公开(公告)日:2021-11-30
申请号:CN202111029334.8
申请日:2015-09-16
Applicant: 株式会社东芝
IPC: G10L13/033 , G10L13/10 , G10L15/14
Abstract: 本发明的实施方式涉及语音合成模型学习装置、语音合成模型学习方法以及存储介质,能够防止语音劣化和不自然的音素持续长度。实施方式的语音合成模型学习装置,具有:语音语料库存储部,其存储语音数据和所述语音数据的基音标记信息及上下文信息;分析部,其根据所述语音数据,分析基音标记信息的各基音标记时刻的音响特征参数;以及统计模型学习部,其根据所述分析部分析出的音响特征参数,学习包含音响特征参数的输出分布以及基于时刻参数的持续时间长度分布的具有多个状态的统计模型,所述音响特征参数包含基音特征参数。
-
公开(公告)号:CN103021402B
公开(公告)日:2015-09-09
申请号:CN201210058572.6
申请日:2012-03-07
Applicant: 株式会社东芝
IPC: G10L13/02
Abstract: 本发明的实施方式涉及合成字典制作装置及合成字典制作方法。提高声音合成字典的制作效率。合成字典制作装置具备提示单元、录制单元、要否判断单元、字典制作单元和声音合成单元。提示单元向用户提示从上述句子存储单元存储的上述N个(N是自然数,N≥2)句子依次选择的第1句子。录制单元将朗读上述第1句子的用户的声音录制,将该录制波形与上述第1句子相关联存储。要否判断单元,在上述录制单元中存储M个(M是自然数,1≤M<N)上述第1句子的录制波形的状态下,判断要否制作声音合成字典。字典制作单元,在判断需要声音合成字典的制作的场合,制作声音合成字典。声音合成单元,采用由上述字典制作单元制作的声音合成字典,将第2句子变换为合成波形。
-
公开(公告)号:CN101449319A
公开(公告)日:2009-06-03
申请号:CN200680054679.6
申请日:2006-10-19
Applicant: 株式会社东芝
IPC: G10L13/04
CPC classification number: G10L13/04
Abstract: 一种语音合成装置,包括:从外部获取用于语音合成的文本数据的文本获取装置;对文本数据执行形态分析/解析的语言处理器;根据文本数据的与韵律和语言有关的属性,诸如重音和词性,向语音合成器输出合成单元串的韵律处理器;根据合成单元串产生合成语音的语音合成器;以及在输出合成语音被积累后或者在其被输出时顺序地再现规定量的输出合成语音的语音波形输出装置。
-
公开(公告)号:CN101276583A
公开(公告)日:2008-10-01
申请号:CN200810096375.7
申请日:2008-03-28
Applicant: 株式会社东芝
CPC classification number: G10L13/07
Abstract: 在一种语音合成中,选择单元从对应于第一节段序列的第一语音单元串中选择一个串,所述第一节段序列通过将对应于目标语音的音位串分割为节段来获得。选择单元基于对应于第二节段序列的最多W个第二语音单元串,重复实施产生对应于第三节段序列的第三语音单元串,其中所述第二节段序列作为第一序列的部分序列,所述第三节段序列通过对第二序列添加节段来获得,并基于每个第三串的估计值从第三串中选择最多W个串。通过使用每个第三串的惩罚系数来修正每个第三串候选的总成本,来获得该数值。该系数基于涉及语音单元数据获取的速度的限制,并依赖于接近所述限制的程度。
-
公开(公告)号:CN107924678B
公开(公告)日:2021-12-17
申请号:CN201580082427.3
申请日:2015-09-16
Applicant: 株式会社东芝
IPC: G10L13/06
Abstract: 本公开涉及语音合成装置、语音合成方法及存储介质。实施方式的语音合成装置具有:存储部,将具有多个状态的统计模型的各状态下的、包含基音特征参数的音响特征参数的输出分布及基于时刻参数的持续长度分布作为统计模型信息进行存储;制作部,根据与输入文本对应的上下文信息及统计模型信息,制作统计模型序列;决定部,使用基于统计模型序列的各统计模型的各状态的持续长度分布而得到的持续时间长度及基于基音特征参数的输出分布而得到的基音信息,决定各状态的基音波形数;生成部,基于基音波形数来生成音响特征参数的输出分布列,基于该输出分布列来生成音响特征参数;及波形生成部,根据所生成的音响特征参数来生成语音波形。
-
公开(公告)号:CN105340003A
公开(公告)日:2016-02-17
申请号:CN201380077502.8
申请日:2013-06-20
Applicant: 株式会社东芝
Abstract: 根据实施例的语音合成字典创建装置包括第一语音输入单元、第二语音输入单元、确定单元以及创建单元。第一语音输入单元接收第一语音数据的输入。第二语音输入单元接收被认为是适当的语音数据的第二语音数据的输入。确定单元确定第一语音数据的说话人是否与第二语音数据的说话人相同。当确定单元确定第一语音数据的说话人与第二语音数据的说话人相同时,创建单元使用第一语音数据以及与第一语音数据对应的文本来创建语音合成字典。
-
公开(公告)号:CN105283916A
公开(公告)日:2016-01-27
申请号:CN201380077322.X
申请日:2013-06-11
Applicant: 株式会社东芝
IPC: G10L19/018
CPC classification number: G10L19/018 , G10L13/06 , G10L13/08 , G10L13/10
Abstract: 本发明的电子水印嵌入装置具备:合成声音生成部,其按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;推定部,其推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间;嵌入控制部,其通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻;以及嵌入部,其对上述合成声音,在由上述合成声音的上述嵌入时刻指定的时刻的特定的频带嵌入电子水印。
-
公开(公告)号:CN104835493A
公开(公告)日:2015-08-12
申请号:CN201510058451.5
申请日:2015-02-04
Applicant: 株式会社东芝
Inventor: 森田真弘
CPC classification number: G10L13/033
Abstract: 根据一个实施例,语音合成字典生成装置包括分析器、说话人自适应器、水平指定单元和确定单元。分析器被配置为分析语音数据,并生成包含对象说话人的话语特征的语音数据库。说话人自适应器被配置为通过基于数据库而将基本模型转换成更接近对象说话人的特征的说话人自适应来生成对象说话人的模型。水平指定单元被配置为接受表示说话人的话语技巧和/或说话人在语音合成字典的语言方面的母语水平的目标说话人水平的指定。确定单元被配置为根据目标说话人水平与对象说话人的说话人水平之间的关系,确定与在说话人自适应中的说话人特性再现的保真度有关的参数。
-
公开(公告)号:CN108417199B
公开(公告)日:2022-11-22
申请号:CN201810409237.3
申请日:2013-01-18
Applicant: 株式会社东芝
IPC: G10L13/02 , G10L19/018
Abstract: 本发明提供能够在不会使合成声音的音质劣化的情况下插入音频水印的音频水印信息检测装置及音频水印信息检测方法。实施方式的音频水印信息检测装置,具备:音高标记推定部,其推定嵌入了音频水印信息的合成声音的音高标记,并按每个所推定的音高标记截取声音;相位提取部,其提取上述音高标记推定部所截取的声音的相位;代表相位计算部,其根据上述相位提取部所提取的相位计算成为多个频点的代表的代表相位;以及判定部,其基于上述代表相位,判定上述音频水印信息的有无。
-
公开(公告)号:CN109427325B
公开(公告)日:2022-11-18
申请号:CN201810971707.5
申请日:2018-08-24
Applicant: 株式会社东芝 , 东芝数字解决方案株式会社
Abstract: 一种语音合成字典分发装置,将用于执行语音合成的字典分发至终端,包括:用于语音合成字典数据库的存储装置,储存:包括说话人的声学模型并且与所述说话人的识别信息相关联的第一字典;包括使用多个说话人的声音数据生成的声学模型的第二字典;以及与第二字典一起使用的且与说话人的识别信息相关联的说话人的参数集;确定第一字典和第二字典中的哪一个将在终端中用于特定说话人的处理器;和输入输出接口,接收从终端发送的说话人的识别信息,随后基于所接收的说话人的识别信息和处理器的确定结果分发第一字典、第二字典、和第二字典的参数集中的至少一个。
-
-
-
-
-
-
-
-
-