语音批数据生成与混淆方法、语音模型训练方法及装置

发明公开

CN117765935A 语音批数据生成与混淆方法、语音模型训练方法及装置审中-实审

请登陆查看更多内容

专利标题： 语音批数据生成与混淆方法、语音模型训练方法及装置
申请号： CN202311687308.3

申请日： 2023-12-06
公开(公告)号： CN117765935A

公开(公告)日： 2024-03-26
发明人: 介飞 , 张海俊 , 汪锦想 , 于振华
申请人： 科大讯飞股份有限公司
申请人地址： 安徽省合肥市高新开发区望江西路666号
专利权人： 科大讯飞股份有限公司
当前专利权人： 科大讯飞股份有限公司
当前专利权人地址： 安徽省合肥市高新开发区望江西路666号
代理机构： 北京路浩知识产权代理有限公司
代理商 孟紫琴
主分类号： G10L15/06
IPC分类号： G10L15/06 ; G06F18/214 ; G06F18/241 ; G06N3/04

摘要：

本发明提供一种语音批数据生成与混淆方法、语音模型训练方法及装置，其中语音批数据生成与混淆方法包括：获取各类别语音数据的样本索引序列；对各类别语音数据的样本索引序列进行混淆，并基于预设类别比例，从混淆后各类别样本索引序列中抽取样本索引，生成多个固定比例数据索引块；对多个固定比例数据索引块进行混淆，并基于混淆后固定比例数据索引块，生成索引批数据。本发明提供的方法及装置，可以保证混淆后任意以固定数据索引块大小为粒度的局部范围内批数据的各个类别样本数量比例稳定，从而增强训练模型的稳定性与泛化能力。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/06	.创建基准模板；训练语音识别系统，例如对说话者声音特征的适应（G10L15/14优先）