-
公开(公告)号:CN117765935A
公开(公告)日:2024-03-26
申请号:CN202311687308.3
申请日:2023-12-06
Applicant: 科大讯飞股份有限公司
IPC: G10L15/06 , G06F18/214 , G06F18/241 , G06N3/04
Abstract: 本发明提供一种语音批数据生成与混淆方法、语音模型训练方法及装置,其中语音批数据生成与混淆方法包括:获取各类别语音数据的样本索引序列;对各类别语音数据的样本索引序列进行混淆,并基于预设类别比例,从混淆后各类别样本索引序列中抽取样本索引,生成多个固定比例数据索引块;对多个固定比例数据索引块进行混淆,并基于混淆后固定比例数据索引块,生成索引批数据。本发明提供的方法及装置,可以保证混淆后任意以固定数据索引块大小为粒度的局部范围内批数据的各个类别样本数量比例稳定,从而增强训练模型的稳定性与泛化能力。
-
公开(公告)号:CN117648955A
公开(公告)日:2024-03-05
申请号:CN202311811408.2
申请日:2023-12-25
Applicant: 科大讯飞股份有限公司
IPC: G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种信息优化方法、系统、应用和训练方法、设备及介质,涉及人工智能技术领域,用于优化神经网络,神经网络包括第一网络层和第二网络层,优化方法包括:获取第一网络层的输出信息;基于拆分策略拆分输出信息,以获得第一拆分信息和第二拆分信息;将第一拆分信息和第二拆分信息输入预先构建的优化模型,以获得优化结果;将优化结果作为第二网络层的输入信息;其中,第一拆分信息和第二拆分信息的体量相同。本申请提供的方法通过将神经网络的输出信息进行拆分,并将拆分后的信息输入至优化模型中得到优化结果,实现了对神经网络模型的输出进行优化,解决了神经网络的输出无法量化的问题。
-
公开(公告)号:CN116628508B
公开(公告)日:2023-12-01
申请号:CN202310893103.4
申请日:2023-07-20
Applicant: 科大讯飞股份有限公司
IPC: G06F18/214
Abstract: 本申请公开了一种模型训练过程异常检测方法、装置、设备及存储介质,方法包括:在模型并行训练过程中,按照设定周期记录训练效率数据,该训练效率数据表示在一个周期内集群中各设备节点对训练数据的使用效率。当集群中存在异常的设备节点时,该异常设备节点对训练数据的读取、使用效率会大大降低,导致整个周期内记录的训练效率数据也偏离正常值,因此,本申请基于当前周期的训练效率数据,确定集群在当前周期是否出现异常,可以及时准确地发现集群的异常。在确定集群在当前周期出现异常时,可以进一步启动进程进行通信异常分析,从而确定异常通信的设备节点,协助快速发现问题节点。
-
公开(公告)号:CN116627659A
公开(公告)日:2023-08-22
申请号:CN202310899664.5
申请日:2023-07-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种模型检查点文件保存方法、装置、设备及存储介质,本申请在确定需要保存检查点checkpoint文件时,为了避免单节点网卡或磁盘IO拥塞问题,引入了负载均衡机制,将模型分割后的各个部分的checkpoint文件保存任务分散到多个不同的设备节点上,控制不同的设备节点采用并行处理的方式执行本设备节点的checkpoint文件保存任务,这样可以充分利用各设备节点的资源,避免单节点网卡或磁盘IO拥塞,提高保存效率。
-
-
-