-
公开(公告)号:CN112863521A
公开(公告)日:2021-05-28
申请号:CN202011546522.3
申请日:2020-12-24
Applicant: 哈尔滨理工大学
Abstract: 本发明公开了一种基于互信息估计的说话人识别方法,解决了说话人身份特征区分性不强及识别系统错误率高的问题。在训练时,先对语音提取语谱图,将其作为VGG‑M网络的输入;然后对训练数据进行随机的三元组采样,获取正负样本进行互信息估计,并利用基于互信息估计的目标函数训练网络。在识别时,利用训练好的VGG‑M网络提取测试语音与目标说话人语音对应的嵌入特征;然后计算上述两个嵌入特征间的余弦距离,并将其作为说话人的匹配得分;将得分与设定的阈值比较,判断测试语音是否来自目标说话人。该方法能够有效利用正负样本对应的说话人特征间的互信息,以此优化网络训练并降低系统的错误率。本发明可以应用于说话人识别领域。
-
公开(公告)号:CN112863521B
公开(公告)日:2022-07-05
申请号:CN202011546522.3
申请日:2020-12-24
Applicant: 哈尔滨理工大学
Abstract: 本发明公开了一种基于互信息估计的说话人识别方法,解决了说话人身份特征区分性不强及识别系统错误率高的问题。在训练时,先对语音提取语谱图,将其作为VGG‑M网络的输入;然后对训练数据进行随机的三元组采样,获取正负样本进行互信息估计,并利用基于互信息估计的目标函数训练网络。在识别时,利用训练好的VGG‑M网络提取测试语音与目标说话人语音对应的嵌入特征;然后计算上述两个嵌入特征间的余弦距离,并将其作为说话人的匹配得分;将得分与设定的阈值比较,判断测试语音是否来自目标说话人。该方法能够有效利用正负样本对应的说话人特征间的互信息,以此优化网络训练并降低系统的错误率。本发明可以应用于说话人识别领域。
-