基于长短时记忆神经网络的说话人分段标注方法及装置

    公开(公告)号:CN110910891A

    公开(公告)日:2020-03-24

    申请号:CN201911118136.1

    申请日:2019-11-15

    Applicant: 复旦大学

    Abstract: 本发明提供一种基于长短时记忆神经网络的说话人分段标注方法及装置,其特征在于,采用基于长短时记忆深度神经网络的说话人识别样本标注模型从待测音频中检测出每个说话人语音出现和持续的时间,包括:步骤S1,对待测音频进行预处理获得音频帧级特征f1和音频帧级特征f2;步骤S2,搭建基于长短时记忆深度神经网络的说话人识别样本标注模型,该说话人样本标注模型包括说话人转换检测子模型以及说话人特征建模子模型;步骤S3,分别训练说话人转换检测子模型以及说话人特征建模子模型;步骤S4,将音频帧级特征f1以及音频帧级特征f2输入基于长短时记忆深度神经网络的说话人识别样本标注模型从而完成待测音频中各个说话人的说话时间段的分类记录。

    基于长短时记忆深度神经网络的说话人分段标注方法

    公开(公告)号:CN110910891B

    公开(公告)日:2022-02-22

    申请号:CN201911118136.1

    申请日:2019-11-15

    Applicant: 复旦大学

    Abstract: 本发明提供一种基于长短时记忆神经网络的说话人分段标注方法及装置,其特征在于,采用基于长短时记忆深度神经网络的说话人识别样本标注模型从待测音频中检测出每个说话人语音出现和持续的时间,包括:步骤S1,对待测音频进行预处理获得音频帧级特征f1和音频帧级特征f2;步骤S2,搭建基于长短时记忆深度神经网络的说话人识别样本标注模型,该说话人样本标注模型包括说话人转换检测子模型以及说话人特征建模子模型;步骤S3,分别训练说话人转换检测子模型以及说话人特征建模子模型;步骤S4,将音频帧级特征f1以及音频帧级特征f2输入基于长短时记忆深度神经网络的说话人识别样本标注模型从而完成待测音频中各个说话人的说话时间段的分类记录。

Patent Agency Ranking