语音波形生成
    1.
    发明授权

    公开(公告)号:CN111602194B

    公开(公告)日:2023-07-04

    申请号:CN201880085612.1

    申请日:2018-09-30

    Abstract: 本公开内容提供了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征,其中声门特征包括相位特征、形状特征和能量特征。基于基频信息和声门特征通过第一神经网络模型来生成声门波形。基于声门波形和声道特征通过第二神经网络模型来生成语音波形。

    语音波形生成
    2.
    发明公开

    公开(公告)号:CN111602194A

    公开(公告)日:2020-08-28

    申请号:CN201880085612.1

    申请日:2018-09-30

    Abstract: 本公开内容提供了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征,其中声门特征包括相位特征、形状特征和能量特征。基于基频信息和声门特征通过第一神经网络模型来生成声门波形。基于声门波形和声道特征通过第二神经网络模型来生成语音波形。

    获得歌声检测模型
    3.
    发明公开

    公开(公告)号:CN112309428A

    公开(公告)日:2021-02-02

    申请号:CN201910694160.3

    申请日:2019-07-30

    Abstract: 本公开提供了用于获得歌声检测模型的方法和装置。可以将多个话音片段和多个器乐片段合成为多个音频片段。可以利用所述多个音频片段来训练话音检测模型。可以将所述话音检测模型的至少一部分迁移到歌声检测模型。可以利用一组多音音乐片段来训练所述歌声检测模型。

    获得歌声检测模型
    4.
    发明授权

    公开(公告)号:CN112309428B

    公开(公告)日:2024-03-19

    申请号:CN201910694160.3

    申请日:2019-07-30

    Abstract: 本公开提供了用于获得歌声检测模型的方法和装置。可以将多个话音片段和多个器乐片段合成为多个音频片段。可以利用所述多个音频片段来训练话音检测模型。可以将所述话音检测模型的至少一部分迁移到歌声检测模型。可以利用一组多音音乐片段来训练所述歌声检测模型。

    利用提前停止聚类的讲话者分离

    公开(公告)号:CN112204657B

    公开(公告)日:2023-12-22

    申请号:CN201980035652.X

    申请日:2019-03-29

    Inventor: 陈丽萍 宋謌平

    Abstract: 本公开提供了用于利用提前停止聚类的讲话者分离的方法和装置。可以将音频流分割为至少一个语音段,所述音频流包括来自至少一个讲话者的语音。可以将所述至少一个语音段聚类为多个簇,所述多个簇的数量大于所述至少一个讲话者的数量。可以从所述多个簇中选择相似度最高的至少一个簇,所选择的至少一个簇的数量等于所述至少一个讲话者的数量。可以基于所选择的至少一个簇来建立讲话者分类模型。可以通过所述讲话者分类模型,将所述音频流中的语音帧与所述至少一个讲话者对准。

    利用提前停止聚类的讲话者分离

    公开(公告)号:CN112204657A

    公开(公告)日:2021-01-08

    申请号:CN201980035652.X

    申请日:2019-03-29

    Inventor: 陈丽萍 宋謌平

    Abstract: 本公开提供了用于利用提前停止聚类的讲话者分离的方法和装置。可以将音频流分割为至少一个语音段,所述音频流包括来自至少一个讲话者的语音。可以将所述至少一个语音段聚类为多个簇,所述多个簇的数量大于所述至少一个讲话者的数量。可以从所述多个簇中选择相似度最高的至少一个簇,所选择的至少一个簇的数量等于所述至少一个讲话者的数量。可以基于所选择的至少一个簇来建立讲话者分类模型。可以通过所述讲话者分类模型,将所述音频流中的语音帧与所述至少一个讲话者对准。

Patent Agency Ranking