-
公开(公告)号:CN108053814B
公开(公告)日:2023-10-13
申请号:CN201711079095.0
申请日:2017-11-06
Applicant: 芋头科技(杭州)有限公司
Inventor: 孟猛
IPC: G10H1/00
Abstract: 本发明公开了一种模拟用户歌声的语音合成系统及方法,属于语音模拟技术领域;其原理在于:获取外部输入的用户正常说话语音并转换成发音文本,根据发音文本形成音子序列;根据音子序列处理得到基本音子的原始时段信息;将基本音子的原始时段信息调整为对应曲谱信息的节拍时段信息;针对基本音子比较原始时段信息和节拍时段信息,并根据判断结果相应调整基本音子的语音合成参数;根据基本音子的经过调整的语音合成参数以及发音文本,形成模拟用户歌声的合成语音并输出。上述技术方案的有益效果是:无需建模就能模拟用户唱歌,提高语音模拟的效率,达到近乎实时反馈的效果,保留用户的音色信息,细节丰富,效果逼真,由此提升了用户体验。
-
公开(公告)号:CN108091321B
公开(公告)日:2021-07-16
申请号:CN201711080122.6
申请日:2017-11-06
Applicant: 芋头科技(杭州)有限公司
Inventor: 孟猛
Abstract: 本发明公开了一种语音合成方法,属于语音处理技术领域;上述方法中,预先设定多类人物角色以及预设合成器参数集合,还包括:获取语句文本;从语句文本中分析得到每段引用部分,以及对应每段引用部分的说话角色;针对语句文本全局规整说话角色,并且将说话角色与预设的人物角色进行匹配,根据匹配结果分别确定说话角色所对应的人物角色以及合成器参数集合;根据每个说话角色的合成器参数集合对对应的引用部分进行语音合成,从而形成对应于语句文本的合成语音并输出。上述技术方案的有益效果是:区分不同的人物角色性格并反应到合成语音中,提升各人物角色的辨识度,使得合成语音更接近人们对文本进行描述的效果,从而提升用户体验。
-
公开(公告)号:CN107833572A
公开(公告)日:2018-03-23
申请号:CN201711080690.6
申请日:2017-11-06
Applicant: 芋头科技(杭州)有限公司
Inventor: 孟猛
IPC: G10L13/08 , G10L13/033 , G10L13/04 , G10L15/26 , G10L15/02
CPC classification number: G10L13/08 , G10L13/033 , G10L13/043 , G10L15/02 , G10L15/26
Abstract: 本发明公开了一种模拟用户说话的语音合成方法及系统,属于语音合成技术领域;方法包括步骤S1,获取外部输入的一段待模拟语音;步骤S2,将待模拟语音识别为对应的包括多个顺序排列的基本音子的发音文本;步骤S3,根据待模拟语音分别处理得到发音文本中每个基本音子的发音时段信息;步骤S4,将发音文本和发音时段信息送入包括一预先训练形成的语音合成模型的语音合成器中,以得到对应于待模拟语音的合成语音并输出。系统包括语音获取单元、语音识别单元、处理单元以及合成单元。上述技术方案的有益效果是:体现语音模拟应用的音色一致性,突出应用本身的个性特点,同时提供给用户更有特色的合成语音,提升用户的使用体验。
-
公开(公告)号:CN110189742B
公开(公告)日:2021-10-08
申请号:CN201910464491.8
申请日:2019-05-30
Applicant: 芋头科技(杭州)有限公司
Abstract: 本公开实施例提供了一种确定情感音频、情感展示、文字转语音的方法和相关装置。其中,该确定情感音频的方法可以包括:获取待处理情感数据;确定情感维度和表情符号;从待处理情感数据中,分别针对情感维度中各维度确定对应的情感特征词和与情感特征词对应的情感语气词;将情感特征词和/或情感语气词,与对应的表情符号进行映射,形成情感特征词和/或情感语气词与表情符号之间的对应关系;基于对应关系,对表情符号配置相匹配的音频;其中,音频为表情符号的读音或与表情符号的表意相一致的音效。通过本公开实施例,解决了如何使得数据情感表达贴合实际情感交流的技术问题,增强了表情符号的表现效果,实现了更拟人、更自然的情感化体验。
-
公开(公告)号:CN108109610B
公开(公告)日:2021-06-18
申请号:CN201711079101.2
申请日:2017-11-06
Applicant: 芋头科技(杭州)有限公司
Inventor: 孟猛
IPC: G10L13/08 , G10L13/033 , G10L13/04 , G10L25/75 , G10L25/93
Abstract: 本发明公开了一种模拟发声方法及模拟发声系统,属于语音合成技术领域;方法包括获取一待发声文本;将待发声文本中的文字分别转化成对应的基本音子,以形成包括依序排列的多个基本音子的音子序列;于音子序列中区分出隶属于中文音标的基本音子以及隶属于英文音标的基本音子;根据对应关系将音子序列中隶属于中文音标的基本音子转换成对应的隶属于英文音标的基本音子,以形成一仅包括隶属于英文音标的基本音子的待发声序列;将待发声序列送入语音合成引擎中,以合成对应于待发声文本的一段语音并输出。上述技术方案的有益效果是:采用一个语音合成引擎实现中英文混合语音的模拟发声,降低模拟发声处理的复杂度,保证模拟发声的准确性。
-
公开(公告)号:CN108510976A
公开(公告)日:2018-09-07
申请号:CN201710103972.7
申请日:2017-02-24
Applicant: 芋头科技(杭州)有限公司
Abstract: 本发明公开了一种多语言混合语音识别方法,属于语音识别技术领域;方法包括:步骤S1,配置一包括多种不同语言的多语言混合词典;步骤S2,根据多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型;步骤S3,根据包括多种不同语言的多语言文本语料训练形成一语言识别模型;步骤S4,采用多语言混合词典、声学识别模型以及语言识别模型形成语音识别系统;随后,采用语音识别系统对混合语音进行识别,并输出对应的识别结果。上述技术方案的有益效果是:能够支持多种语言混合语音的识别,提升识别的准确率和效率,因此提高语音识别系统的性能。
-
公开(公告)号:CN108109610A
公开(公告)日:2018-06-01
申请号:CN201711079101.2
申请日:2017-11-06
Applicant: 芋头科技(杭州)有限公司
Inventor: 孟猛
IPC: G10L13/08 , G10L13/033 , G10L13/04 , G10L25/75 , G10L25/93
Abstract: 本发明公开了一种模拟发声方法及模拟发声系统,属于语音合成技术领域;方法包括获取一待发声文本;将待发声文本中的文字分别转化成对应的基本音子,以形成包括依序排列的多个基本音子的音子序列;于音子序列中区分出隶属于中文音标的基本音子以及隶属于英文音标的基本音子;根据对应关系将音子序列中隶属于中文音标的基本音子转换成对应的隶属于英文音标的基本音子,以形成一仅包括隶属于英文音标的基本音子的待发声序列;将待发声序列送入语音合成引擎中,以合成对应于待发声文本的一段语音并输出。上述技术方案的有益效果是:采用一个语音合成引擎实现中英文混合语音的模拟发声,降低模拟发声处理的复杂度,保证模拟发声的准确性。
-
公开(公告)号:CN108091321A
公开(公告)日:2018-05-29
申请号:CN201711080122.6
申请日:2017-11-06
Applicant: 芋头科技(杭州)有限公司
Inventor: 孟猛
Abstract: 本发明公开了一种语音合成方法,属于语音处理技术领域;上述方法中,预先设定多类人物角色以及预设合成器参数集合,还包括:获取语句文本;从语句文本中分析得到每段引用部分,以及对应每段引用部分的说话角色;针对语句文本全局规整说话角色,并且将说话角色与预设的人物角色进行匹配,根据匹配结果分别确定说话角色所对应的人物角色以及合成器参数集合;根据每个说话角色的合成器参数集合对对应的引用部分进行语音合成,从而形成对应于语句文本的合成语音并输出。上述技术方案的有益效果是:区分不同的人物角色性格并反应到合成语音中,提升各人物角色的辨识度,使得合成语音更接近人们对文本进行描述的效果,从而提升用户体验。
-
公开(公告)号:CN110189742A
公开(公告)日:2019-08-30
申请号:CN201910464491.8
申请日:2019-05-30
Applicant: 芋头科技(杭州)有限公司
Abstract: 本公开实施例提供了一种确定情感音频、情感展示、文字转语音的方法和相关装置。其中,该确定情感音频的方法可以包括:获取待处理情感数据;确定情感维度和表情符号;从待处理情感数据中,分别针对情感维度中各维度确定对应的情感特征词和与情感特征词对应的情感语气词;将情感特征词和/或情感语气词,与对应的表情符号进行映射,形成情感特征词和/或情感语气词与表情符号之间的对应关系;基于对应关系,对表情符号配置相匹配的音频;其中,音频为表情符号的读音或与表情符号的表意相一致的音效。通过本公开实施例,解决了如何使得数据情感表达贴合实际情感交流的技术问题,增强了表情符号的表现效果,实现了更拟人、更自然的情感化体验。
-
公开(公告)号:CN108510976B
公开(公告)日:2021-03-19
申请号:CN201710103972.7
申请日:2017-02-24
Applicant: 芋头科技(杭州)有限公司
Abstract: 本发明公开了一种多语言混合语音识别方法,属于语音识别技术领域;方法包括:步骤S1,配置一包括多种不同语言的多语言混合词典;步骤S2,根据多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型;步骤S3,根据包括多种不同语言的多语言文本语料训练形成一语言识别模型;步骤S4,采用多语言混合词典、声学识别模型以及语言识别模型形成语音识别系统;随后,采用语音识别系统对混合语音进行识别,并输出对应的识别结果。上述技术方案的有益效果是:能够支持多种语言混合语音的识别,提升识别的准确率和效率,因此提高语音识别系统的性能。
-
-
-
-
-
-
-
-
-