发明公开
- 专利标题: 一种语音鉴伪与说话人识别联合建模的方法
-
申请号: CN202111098690.5申请日: 2021-09-18
-
公开(公告)号: CN113555023A公开(公告)日: 2021-10-26
- 发明人: 聂帅 , 陶建华 , 梁山 , 易江燕 , 傅睿博
- 申请人: 中国科学院自动化研究所
- 申请人地址: 北京市海淀区中关村东路95号
- 专利权人: 中国科学院自动化研究所
- 当前专利权人: 中国科学院自动化研究所
- 当前专利权人地址: 北京市海淀区中关村东路95号
- 代理机构: 北京华夏泰和知识产权代理有限公司
- 代理商 李永叶
- 主分类号: G10L17/04
- IPC分类号: G10L17/04 ; G10L17/18 ; G10L17/02 ; G06N3/08 ; G06N3/04
摘要:
本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定义片段级别说话人识别目标函数;定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
公开/授权文献
- CN113555023B 一种语音鉴伪与说话人识别联合建模的方法 公开/授权日:2022-01-11