-
公开(公告)号:CN112967728A
公开(公告)日:2021-06-15
申请号:CN202110542804.4
申请日:2021-05-19
申请人: 北京世纪好未来教育科技有限公司
IPC分类号: G10L19/16
摘要: 本发明公开了一种结合声传递函数的端到端语音合成方法及装置。该方法包括:将文本序列语音合成为音频;根据预设的目标声源的位置获取声传递函数;利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波,从而生成带有空间信息的语音。该装置包括:语音合成单元、声传递函数获取单元、以及空间信息加入单元。这种方法和装置引入声传递函数方法对语音进行处理,空间参数信息结合端到端语音合成生成带有空间信息的语音,结合声传递函数搭建端到端语音合成系统,可以在虚拟教室与虚拟直播等场景引入空间信息,增加与学生或听众互动体验与空间感受。
-
公开(公告)号:CN113345409B
公开(公告)日:2021-11-26
申请号:CN202110893747.4
申请日:2021-08-05
申请人: 北京世纪好未来教育科技有限公司
摘要: 本公开提供了一种语音合成方法、装置、电子设备及计算机可读存储介质,该方法包括:获取待转换文本信息;其中,待转换文本信息包括待识别符号;获取预设正则匹配规则;根据预设正则匹配规则将待识别符号转换为文本信息;根据待识别符号对应的文本信息将待转换文本信息转换为完整文本信息;对完整文本信息进行语音合成,生成音频信息。
-
公开(公告)号:CN113096636A
公开(公告)日:2021-07-09
申请号:CN202110634092.9
申请日:2021-06-08
申请人: 北京世纪好未来教育科技有限公司
IPC分类号: G10L13/02 , G10L15/02 , G10L21/0208
摘要: 本申请公开了一种语音合成装置、方法、电子设备和计算机存储介质,所述语音合成装置包括语音合成处理模块和语音增强模块,所述语音合成处理模块的输出与所述语音增强模块的输入相连;其中,所述语音合成处理模块包括:文本编码器、韵律控制模块、位置敏感注意力模块、注意力过渡机制模块、解码器和声码器。利用本申请的实施例能够得到携带风格韵律的清晰的合成语音。
-
公开(公告)号:CN114255737B
公开(公告)日:2022-05-17
申请号:CN202210183874.X
申请日:2022-02-28
申请人: 北京世纪好未来教育科技有限公司
摘要: 本公开提供一种语音生成方法、装置及电子设备,包括:根据目标视频的视频数据,确定视觉特征,并根据目标视频的音频数据,确定语音特征与语音特征的隐变量特征,根据视觉特征、语音特征、隐变量特征,确定目标视频的增益特征,并根据视觉特征、增益特征,确定目标视频的合成语音。本公开可以提高合成语音的生动性、自然性,以达到提升语音合成质量的效果。
-
公开(公告)号:CN113921022B
公开(公告)日:2022-02-25
申请号:CN202111517138.5
申请日:2021-12-13
申请人: 北京世纪好未来教育科技有限公司
IPC分类号: G10L19/02 , G10L21/0272 , G10L25/30
摘要: 本公开涉及一种音频信号分离方法、装置、存储介质和电子设备,其中方法包括:获取原始音频信号,其包括目标音频信号和背景音频信号;对原始音频信号进行短时傅里叶变换处理得到原始音频信号的频谱;将原始音频信号输入预设分离模型以得到目标音频信号对应的第一掩膜,基于第一掩膜和原始音频信号的频谱中的幅值谱生成目标音频信号对应的幅值谱;基于目标音频信号对应的幅值谱、原始音频信号的频谱中的相位谱得到目标音频信号对应的第一目标频谱;将第一目标频谱输入语音增强模型以得到目标音频信号对应的第二掩膜,基于第二掩膜和第一目标频谱,确定目标音频信号对应的第二目标频谱;对第二目标频谱进行短时傅里叶逆变换处理得到目标音频信号。
-
公开(公告)号:CN112687258B
公开(公告)日:2021-07-09
申请号:CN202110264110.9
申请日:2021-03-11
申请人: 北京世纪好未来教育科技有限公司
摘要: 本申请实施例提供了一种语音合成方法、装置和计算机存储介质,该语音合成方法包括:获取待合成的混合序列,其中,混合序列包括待合成文本和待合成图形,待合成图形包括图形文本和图形公式中的至少一个;将混合序列所包括的待合成文本和待合成图形分离;将待合成图形输入图形识别模型,识别图形文本所包括的识别文本,并将图形公式识别为LaTeX字符;根据图形文本和图形公式在混合序列中的位置,对待合成文本、识别文本和LaTeX字符进行合并,获得文本序列;将文本序列输入语音合成模型,通过语音合成模型将文本序列转换为音频。本方案能够提高对于混合序列进行语音合成的准确度。
-
公开(公告)号:CN112151007A
公开(公告)日:2020-12-29
申请号:CN202011329309.7
申请日:2020-11-24
申请人: 北京世纪好未来教育科技有限公司
IPC分类号: G10L13/033 , G10L13/08
摘要: 本发明实施例提供一种语音合成方法、装置、设备及存储介质,该方法包括:获取待合成的文本信息和用户的听阈信息,其中,所述用户的听阈信息基于听阈测试得到;确定所述文本信息对应的初始频谱信息;根据所述用户的听阈信息,对所述初始频谱信息进行频谱增益处理,得到所述文本信息的语言频谱信息;基于所述语言频谱信息,合成对应所述文本信息的语音。本发明实施例能够优化语音合成方案,以满足不同的用户对语音的不同需求。
-
公开(公告)号:CN111863026A
公开(公告)日:2020-10-30
申请号:CN202010732687.3
申请日:2020-07-27
申请人: 北京世纪好未来教育科技有限公司
摘要: 本申请提供的键盘乐器弹奏音乐的处理技术方案,根据键盘乐器的按键数量以及每个按键对应产生的音高值,建立识别音高值及其出现概率的模型;对键盘乐器产生的音频文件进行预处理,以提取其中至少一音频帧的音频特征;将音频帧的音频特征输入到上述模型中,识别出上述音频帧对应的音高值及其出现概率;根据音频帧对应的音高值及其出现概率,确定对应音频帧的内容识别结果。上述方案通过根据键盘乐器的按键数量以及每个按键对应产生的音高值而建立的识别音高值及其出现概率的模型,来识别出上述音频帧对应的音高值及其出现概率,降低了键盘乐器弹奏音乐的识别处理难度,提高了识别的准确度。
-
公开(公告)号:CN114255737A
公开(公告)日:2022-03-29
申请号:CN202210183874.X
申请日:2022-02-28
申请人: 北京世纪好未来教育科技有限公司
摘要: 本公开提供一种语音生成方法、装置及电子设备,包括:根据目标视频的视频数据,确定视觉特征,并根据目标视频的音频数据,确定语音特征与语音特征的隐变量特征,根据视觉特征、语音特征、隐变量特征,确定目标视频的增益特征,并根据视觉特征、增益特征,确定目标视频的合成语音。本公开可以提高合成语音的生动性、自然性,以达到提升语音合成质量的效果。
-
公开(公告)号:CN113096636B
公开(公告)日:2022-02-11
申请号:CN202110634092.9
申请日:2021-06-08
申请人: 北京世纪好未来教育科技有限公司
IPC分类号: G10L13/02 , G10L15/02 , G10L21/0208
摘要: 本申请公开了一种语音合成装置、方法、电子设备和计算机存储介质,所述语音合成装置包括语音合成处理模块和语音增强模块,所述语音合成处理模块的输出与所述语音增强模块的输入相连;其中,所述语音合成处理模块包括:文本编码器、韵律控制模块、位置敏感注意力模块、注意力过渡机制模块、解码器和声码器。利用本申请的实施例能够得到携带风格韵律的清晰的合成语音。
-
-
-
-
-
-
-
-
-