数字音频的鲁棒认证
    1.
    发明公开

    公开(公告)号:CN117223055A

    公开(公告)日:2023-12-12

    申请号:CN202180059403.1

    申请日:2021-05-08

    Abstract: 用于认证数字音频的解决方案包括:使用第一密钥生成第一频带限制水印,使用第二密钥生成第二频带限制水印,其中该第二水印的带宽不与该第一水印的带宽重叠;以及将该第一水印和该第二水印嵌入到该数字音频文件的片段中。各解决方案还包括使用该第一密钥针对该第一水印确定该数字音频文件的片段的第一水印分数;使用该第二密钥针对该第二水印确定该数字音频文件的该片段的第二水印分数;至少基于该第一水印分数和该第二水印分数来确定该数字音频文件带水印的概率;以及生成指示该数字音频文件是否带水印的报告。在一些示例中,各解决方案还可以嵌入和解码消息。

    具有多级别文本信息的神经文本到语音合成

    公开(公告)号:CN112352275A

    公开(公告)日:2021-02-09

    申请号:CN201880091963.3

    申请日:2018-12-13

    Inventor: 明怀平 何磊

    Abstract: 用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入(1310)。可以基于所述文本输入来生成音素或字符级别文本信息(1320)。可以基于所述文本输入来生成上下文敏感文本信息(1330)。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征(1340)。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形(1350)。

    多语言神经文本到语音合成

    公开(公告)号:CN112185337A

    公开(公告)日:2021-01-05

    申请号:CN201910588478.3

    申请日:2019-07-02

    Inventor: 杨径舟 何磊

    Abstract: 本公开提供了用于通过多语言神经文本到语音(TTS)合成来生成语音的方法和装置。可以接收采用至少第一语言的文本输入。可以通过讲话者编码器来提供目标讲话者的讲话者潜在空间信息。可以通过语言编码器来提供第二语言的语言潜在空间信息。可以通过声学特征预测器,基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征。可以通过神经声码器,基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。

    多说话者神经文本到语音合成

    公开(公告)号:CN111954903A

    公开(公告)日:2020-11-17

    申请号:CN201880091361.8

    申请日:2018-12-11

    Inventor: 邓妍 何磊

    Abstract: 提供了用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法。可以接收文本输入(1410)。可以通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息(1420)。可以通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征(1430)。可以通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形(1440)。

    具有情感内容的文字至语音转换

    公开(公告)号:CN106688034B

    公开(公告)日:2020-11-13

    申请号:CN201580048224.2

    申请日:2015-09-07

    Inventor: 栾剑 何磊 M·梁

    Abstract: 本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中,使用中性模型针对脚本预测情感中性声轨迹,并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中,通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。

    多语言神经文本到语音合成

    公开(公告)号:CN112185337B

    公开(公告)日:2024-04-26

    申请号:CN201910588478.3

    申请日:2019-07-02

    Inventor: 杨径舟 何磊

    Abstract: 本公开提供了用于通过多语言神经文本到语音(TTS)合成来生成语音的方法和装置。可以接收采用至少第一语言的文本输入。可以通过讲话者编码器来提供目标讲话者的讲话者潜在空间信息。可以通过语言编码器来提供第二语言的语言潜在空间信息。可以通过声学特征预测器,基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征。可以通过神经声码器,基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。

    多说话者神经文本到语音合成

    公开(公告)号:CN111954903B

    公开(公告)日:2024-03-15

    申请号:CN201880091361.8

    申请日:2018-12-11

    Inventor: 邓妍 何磊

    Abstract: 提供了用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法。可以接收文本输入(1410)。可以通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息(1420)。可以通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征(1430)。可以通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形(1440)。

    语音波形生成
    9.
    发明授权

    公开(公告)号:CN111602194B

    公开(公告)日:2023-07-04

    申请号:CN201880085612.1

    申请日:2018-09-30

    Abstract: 本公开内容提供了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征,其中声门特征包括相位特征、形状特征和能量特征。基于基频信息和声门特征通过第一神经网络模型来生成声门波形。基于声门波形和声道特征通过第二神经网络模型来生成语音波形。

Patent Agency Ranking