-
公开(公告)号:CN113939829A
公开(公告)日:2022-01-14
申请号:CN202080043172.0
申请日:2020-05-11
Applicant: 微软技术许可有限责任公司
Abstract: 所公开的实施例提供了用于处理数据的系统。在操作期间,所述系统获得包含与第一标识符(ID)值集合相关联的第一记录集合的训练数据集和包含与第二ID值集合相关联的第二记录集合的评估数据集。接下来,所述系统从所述第二ID值集合中选择随机ID值子集。所述系统然后生成经采样的评估数据集,所述经采样的评估数据集包括所述第二记录集合中的与所述随机ID值子集相关联的第一记录子集。所述系统还生成经采样的训练数据集,所述经采样的训练数据集包括所述第一记录集合中的与所述随机ID值子集相关联的第二记录子集。最后,所述系统输出所述经采样的训练数据集和所述经采样的评估数据集,以用于训练和评估机器学习模型。