-
公开(公告)号:CN112735384A
公开(公告)日:2021-04-30
申请号:CN202011581942.5
申请日:2020-12-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种应用于说话人分离的转折点检测方法、装置以及设备,本发明的构思在于为转折点检测网络引入文本信息,尤其是引入辅助检测信息,从而减少不合理预测,特别是能够在保证语义连贯性和停顿合理的同时,对说话人转折点进行更为精准且更贴近自然语言的检测,会使得转折点检测结果在主观感受上的效果更优,进而可以有效改善用户体验。尤其地,通过文本及标点所蕴含的语义信息和断句信息,并结合声学层面的声纹特征共同对基于文本的转折点位置进行甄别,能够为转折点检测网络起到更佳的状态控制作用,使得最终输出的检测结果在综合了多角度的参考后预测精度更高,且更适应于各种复杂场景。
-
公开(公告)号:CN112735384B
公开(公告)日:2024-07-05
申请号:CN202011581942.5
申请日:2020-12-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种应用于说话人分离的转折点检测方法、装置以及设备,本发明的构思在于为转折点检测网络引入文本信息,尤其是引入辅助检测信息,从而减少不合理预测,特别是能够在保证语义连贯性和停顿合理的同时,对说话人转折点进行更为精准且更贴近自然语言的检测,会使得转折点检测结果在主观感受上的效果更优,进而可以有效改善用户体验。尤其地,通过文本及标点所蕴含的语义信息和断句信息,并结合声学层面的声纹特征共同对基于文本的转折点位置进行甄别,能够为转折点检测网络起到更佳的状态控制作用,使得最终输出的检测结果在综合了多角度的参考后预测精度更高,且更适应于各种复杂场景。
-
公开(公告)号:CN119785801A
公开(公告)日:2025-04-08
申请号:CN202411754107.5
申请日:2024-12-02
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种离线个性化声纹学习方法及说话人分离方法,涉及语音处理技术领域,在设备端确定内置的通用声纹识别模型和目标通用声纹学习数据,并获取个性化声纹学习数据;利用训练数据和个性化声纹学习数据,对通用声纹识别模型进行元学习,得到初始个性化声纹识别模型;最后利用测试数据,分别对通用声纹识别模型和初始个性化声纹识别模型进行测试,并基于得到的第一测试结果,确定目标个性化声纹识别模型。该方法利用个性化声纹学习数据以及设备端内置的训练数据,对通用声纹识别模型进行元学习以及测试即可实现离线个性化训练,不需要向每个设备端传输模型更新包,可以大大提高模型更新效率,降低成本,避免因更新包传输引入的安全性问题。
-
-