结合声传递函数的端到端语音合成方法及装置

    公开(公告)号:CN112967728A

    公开(公告)日:2021-06-15

    申请号:CN202110542804.4

    申请日:2021-05-19

    IPC分类号: G10L19/16

    摘要: 本发明公开了一种结合声传递函数的端到端语音合成方法及装置。该方法包括:将文本序列语音合成为音频;根据预设的目标声源的位置获取声传递函数;利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波,从而生成带有空间信息的语音。该装置包括:语音合成单元、声传递函数获取单元、以及空间信息加入单元。这种方法和装置引入声传递函数方法对语音进行处理,空间参数信息结合端到端语音合成生成带有空间信息的语音,结合声传递函数搭建端到端语音合成系统,可以在虚拟教室与虚拟直播等场景引入空间信息,增加与学生或听众互动体验与空间感受。

    语音合成装置、方法、电子设备和存储介质

    公开(公告)号:CN113096636A

    公开(公告)日:2021-07-09

    申请号:CN202110634092.9

    申请日:2021-06-08

    摘要: 本申请公开了一种语音合成装置、方法、电子设备和计算机存储介质,所述语音合成装置包括语音合成处理模块和语音增强模块,所述语音合成处理模块的输出与所述语音增强模块的输入相连;其中,所述语音合成处理模块包括:文本编码器、韵律控制模块、位置敏感注意力模块、注意力过渡机制模块、解码器和声码器。利用本申请的实施例能够得到携带风格韵律的清晰的合成语音。

    音频信号分离方法、装置、存储介质和电子设备

    公开(公告)号:CN113921022B

    公开(公告)日:2022-02-25

    申请号:CN202111517138.5

    申请日:2021-12-13

    发明人: 智鹏鹏 陈昌滨

    摘要: 本公开涉及一种音频信号分离方法、装置、存储介质和电子设备,其中方法包括:获取原始音频信号,其包括目标音频信号和背景音频信号;对原始音频信号进行短时傅里叶变换处理得到原始音频信号的频谱;将原始音频信号输入预设分离模型以得到目标音频信号对应的第一掩膜,基于第一掩膜和原始音频信号的频谱中的幅值谱生成目标音频信号对应的幅值谱;基于目标音频信号对应的幅值谱、原始音频信号的频谱中的相位谱得到目标音频信号对应的第一目标频谱;将第一目标频谱输入语音增强模型以得到目标音频信号对应的第二掩膜,基于第二掩膜和第一目标频谱,确定目标音频信号对应的第二目标频谱;对第二目标频谱进行短时傅里叶逆变换处理得到目标音频信号。

    语音合成方法、装置和计算机存储介质

    公开(公告)号:CN112687258B

    公开(公告)日:2021-07-09

    申请号:CN202110264110.9

    申请日:2021-03-11

    发明人: 智鹏鹏 杨嵩

    摘要: 本申请实施例提供了一种语音合成方法、装置和计算机存储介质,该语音合成方法包括:获取待合成的混合序列,其中,混合序列包括待合成文本和待合成图形,待合成图形包括图形文本和图形公式中的至少一个;将混合序列所包括的待合成文本和待合成图形分离;将待合成图形输入图形识别模型,识别图形文本所包括的识别文本,并将图形公式识别为LaTeX字符;根据图形文本和图形公式在混合序列中的位置,对待合成文本、识别文本和LaTeX字符进行合并,获得文本序列;将文本序列输入语音合成模型,通过语音合成模型将文本序列转换为音频。本方案能够提高对于混合序列进行语音合成的准确度。

    一种语音合成方法、装置、设备及存储介质

    公开(公告)号:CN112151007A

    公开(公告)日:2020-12-29

    申请号:CN202011329309.7

    申请日:2020-11-24

    IPC分类号: G10L13/033 G10L13/08

    摘要: 本发明实施例提供一种语音合成方法、装置、设备及存储介质,该方法包括:获取待合成的文本信息和用户的听阈信息,其中,所述用户的听阈信息基于听阈测试得到;确定所述文本信息对应的初始频谱信息;根据所述用户的听阈信息,对所述初始频谱信息进行频谱增益处理,得到所述文本信息的语言频谱信息;基于所述语言频谱信息,合成对应所述文本信息的语音。本发明实施例能够优化语音合成方案,以满足不同的用户对语音的不同需求。

    键盘乐器弹奏音乐的处理方法、装置、电子装置

    公开(公告)号:CN111863026A

    公开(公告)日:2020-10-30

    申请号:CN202010732687.3

    申请日:2020-07-27

    IPC分类号: G10L25/24 G10L25/51 G10L25/30

    摘要: 本申请提供的键盘乐器弹奏音乐的处理技术方案,根据键盘乐器的按键数量以及每个按键对应产生的音高值,建立识别音高值及其出现概率的模型;对键盘乐器产生的音频文件进行预处理,以提取其中至少一音频帧的音频特征;将音频帧的音频特征输入到上述模型中,识别出上述音频帧对应的音高值及其出现概率;根据音频帧对应的音高值及其出现概率,确定对应音频帧的内容识别结果。上述方案通过根据键盘乐器的按键数量以及每个按键对应产生的音高值而建立的识别音高值及其出现概率的模型,来识别出上述音频帧对应的音高值及其出现概率,降低了键盘乐器弹奏音乐的识别处理难度,提高了识别的准确度。

    语音合成装置、方法、电子设备和存储介质

    公开(公告)号:CN113096636B

    公开(公告)日:2022-02-11

    申请号:CN202110634092.9

    申请日:2021-06-08

    摘要: 本申请公开了一种语音合成装置、方法、电子设备和计算机存储介质,所述语音合成装置包括语音合成处理模块和语音增强模块,所述语音合成处理模块的输出与所述语音增强模块的输入相连;其中,所述语音合成处理模块包括:文本编码器、韵律控制模块、位置敏感注意力模块、注意力过渡机制模块、解码器和声码器。利用本申请的实施例能够得到携带风格韵律的清晰的合成语音。