基于Perceptual STARGAN的多对多说话人转换方法

    公开(公告)号:CN110600047B

    公开(公告)日:2023-06-20

    申请号:CN201910874686.X

    申请日:2019-09-17

    Abstract: 本发明公开了一种基于Perceptual STARGAN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与感知网络相结合来实现语音转换系统,利用感知网络计算感知损失来提升模型对语音频谱的深层语义特征与个性特征的提取能力,能够较好地提升模型对语音频谱的语义以及个性特征的学习能力,从而较好地提升转换后语音的个性相似度和语音质量,克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,降低模型复杂度,实现多说话人对多说话人转换。

    基于SN的多对多说话人转换方法

    公开(公告)号:CN110060657B

    公开(公告)日:2023-01-31

    申请号:CN201910268565.0

    申请日:2019-04-04

    Abstract: 本发明公开了一种基于SN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN‑ResNet与SN相结合来实现语音转换系统,利用SN(Switchable norm)解决STARGAN‑ResNet中数据标准化过程中的噪声问题,通过为深度网络中的每一个标准化层确定合适的标准化操作来改善STARGAN‑ResNet的数据标准化过程中产生的噪声问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,克服转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。

    非平行文本条件下基于文本编码器的多对多语音转换方法

    公开(公告)号:CN109326283B

    公开(公告)日:2021-01-26

    申请号:CN201811406355.5

    申请日:2018-11-23

    Inventor: 李燕萍 石杨 张燕

    Abstract: 本发明公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text‑Encoder)相结合来实现语音转换系统,在VAWGAN中加入代表语义的句子嵌入,能够较好地提升转换后语音的语音质量和个性相似度,实现高质量的语音转换。此外,本方法解除了对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。此外,本方法可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。

    非平行文本条件下基于i向量的多对多说话人转换方法

    公开(公告)号:CN109377978A

    公开(公告)日:2019-02-22

    申请号:CN201811337338.0

    申请日:2018-11-12

    CPC classification number: G10L13/08 G10L13/02 G10L19/02 G10L21/007 G10L25/30

    Abstract: 本发明公开了一种非平行文本条件下基于i向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了VAWGAN与i向量相结合来实现语音转换系统,能够较好地提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。此外,本方法解除对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。

    非平行文本条件下基于文本编码器的多对多语音转换方法

    公开(公告)号:CN109326283A

    公开(公告)日:2019-02-12

    申请号:CN201811406355.5

    申请日:2018-11-23

    Inventor: 李燕萍 石杨 张燕

    Abstract: 本发明公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text-Encoder)相结合来实现语音转换系统,在VAWGAN中加入代表语义的句子嵌入,能够较好地提升转换后语音的语音质量和个性相似度,实现高质量的语音转换。此外,本方法解除了对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。此外,本方法可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。

    基于多级联金字塔模型的深度图像超分辨率网络算法

    公开(公告)号:CN116263937A

    公开(公告)日:2023-06-16

    申请号:CN202310150306.4

    申请日:2023-02-22

    Inventor: 张燕 邓丽珍 朱虎

    Abstract: 本发明属于计算机视觉领域,具体地说,是一种基于多级联金字塔模型的深度图像超分辨率网络算法,提出的模型构建了基于多级联金字塔的深度图像超分辨率网络,解决了跨模态特征提取以及RGB纹理过渡转移等问题。具体来说,首先,模型学习图像R和深度D之间的差异并逼近真值X作为输入信息;接着,输入信息经过四级金字塔训练,合成更高质量的图像信息并通过金字塔最底端输出;最后,将经过训练的残差H与深度图像D相加反向传播矫正H用于恢复超分辨率的图像O。值得注意的是,引入的多尺度金字塔不仅能起到分离高频信息与背景信息的作用,更能一定程度上减少参数量,降低训练难度。

    基于STARGAN和x向量的多对多说话人转换方法

    公开(公告)号:CN109671442B

    公开(公告)日:2023-02-28

    申请号:CN201910030578.4

    申请日:2019-01-14

    Abstract: 本发明公开了一种基于STARGAN与x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与x向量相结合来实现语音转换系统,能够较好地提升转换后语音的个性相似度和语音质量,特别是对于短时话语x向量具有更好的表征性能,语音转换质量更好,同时可以克服C‑VAE中过平滑的问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换,在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。

    基于beta-VAE的多对多语音转换方法

    公开(公告)号:CN110047501B

    公开(公告)日:2021-09-07

    申请号:CN201910268592.8

    申请日:2019-04-04

    Abstract: 本发明公开了一种基于beta‑VAE的多对多语音转换方法,通过引入可调节参数β和C,完成对变分自动编码器(VAE)框架的修改,在提高隐变量解纠缠能力的同时,也改善其在瓶颈层编码能力不足的问题,实现多说话人对多说话人的语音转换。本方法解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音质量,有效的提高转换的性能。并且本方法解除对平行文本的依赖,训练过程不需要任何对齐操作,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多的转换。

    基于STARGAN与i向量的多对多说话人转换方法

    公开(公告)号:CN110136686A

    公开(公告)日:2019-08-16

    申请号:CN201910397833.9

    申请日:2019-05-14

    Abstract: 本发明公开了一种基于STARGAN与i向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用循环对抗网络,通过降低循环对抗损失较好地提升转换后语音的个性相似度和语音质量,用STARGAN与i向量相结合来实现语音转换系统,较好地提升转换后语音的个性相似度和语音质量,特别是对于短时话语i向量具有更好的表征性能,语音转换质量更好,同时可以克服C-VAE中过平滑的问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。

    基于BLSTM-CRF的地名组织名识别方法

    公开(公告)号:CN110134956A

    公开(公告)日:2019-08-16

    申请号:CN201910397611.7

    申请日:2019-05-14

    Abstract: 本发明公开了一种基于BLSTM-CRF的地名组织名识别方法,包括训练阶段和识别阶段,使用BLSTM-CRF模型,通过BLSTM能够较好地学习上下文的信息,通过CRF特有的转移特征能够考虑到输出label之间的顺序性,特别是用词特征与字特征结合作为输入特征,通过加入词特征能够更好地进行命名体的分界,提高命名体识别的精确度和召回率。此外,本方法运用基于地理位置的分词工具,分词更加精准。

Patent Agency Ranking