-
公开(公告)号:CN119537312A
公开(公告)日:2025-02-28
申请号:CN202411483304.8
申请日:2024-10-23
Applicant: 南京南瑞瑞中数据股份有限公司 , 南瑞集团有限公司
Abstract: 本发明公开了一种一种大模型样本的预处理方法、系统、设备及存储介质,所述方法基于系统实现,包括:通过样本采集模块,从多个样本源采集原始数据,并存入由样本存储模块提供的原始样本库中;利用样本加工模块,从原始样本库中获取采集的原始数据,根据文件类型对不同类型的样本数据进行相应的解析、清洗和质检工作,存入高质量样本库中;基于用户需求,通过样本管理模块提供的创建/修改样本目录、需求提报、样本可视化、样本申请功能,实现对原始及高质量样本的维护、检索和展示。本发明通过自动化的样本预处理流程,显著缩短样本准备时间,提升大模型训练效率。