一种基于蒸馏的持续自监督多类型语音声学特征表示方法

    公开(公告)号:CN119832940A

    公开(公告)日:2025-04-15

    申请号:CN202510054722.3

    申请日:2025-01-14

    Inventor: 季薇 石玥 李云

    Abstract: 本发明涉及深度学习技术领域,具体为一种基于蒸馏的持续自监督多类型语音声学特征表示方法,包括:语音数据的采集;对采集的语音数据进行预处理,并将预处理后的不同类型语音数据分配到不同训练阶段;初始化一个掩蔽自监督特征提取模型;根据模型输出的重构特征构建重演缓冲区并进行数据增强;在下一阶段更新掩蔽自监督特征提取模型,利用重演缓冲区进行特征蒸馏;得到拟提取的多类型语音的声学特征;该方法将多类型语音数据按序训练,能够防止不同数据发生数据冲突;其次,在重演缓冲区数据上利用余弦相似度作为正则项进行特征蒸馏来保留知识,可在防止旧知识遗忘的同时,增强模型的可塑性。

Patent Agency Ranking