-
公开(公告)号:CN116882520A
公开(公告)日:2023-10-13
申请号:CN202310907091.6
申请日:2017-12-20
Applicant: 第四范式(北京)技术有限公司
IPC: G06N20/00
Abstract: 提供了一种针对预定预测问题的预测方法及系统。所述方法包括:(A)将候选特征集划分为多个候选特征子集;(B)针对每一个候选特征子集,获取相应的特征池机器学习模型;(C)根据特征池机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性;以及(D)针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征;(E)基于目标特征以及机器学习模型,得到针对预定预测问题的预测结果。根据所述方法和系统,可在运算资源有限的情况下较好地筛选出相对重要的样本特征。
-
公开(公告)号:CN116757297A
公开(公告)日:2023-09-15
申请号:CN202310777360.1
申请日:2017-12-20
Applicant: 第四范式(北京)技术有限公司
IPC: G06N20/20 , G06F18/211
Abstract: 提供了一种用于选择机器学习样本的特征的方法及系统。所述方法包括:(A)将候选特征集划分为多个候选特征子集;(B)针对每一个候选特征子集,获取相应的复合机器学习模型;(C)根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性;(D)针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。根据所述方法和系统,利用提升框架结构的复合机器学习模型,采用特定的重要性衡量方式来确定其中各个候选特征的重要性,从而可在运算资源有限的情况下较好地筛选出相对重要的样本特征。
-
公开(公告)号:CN111597187B
公开(公告)日:2023-09-01
申请号:CN202010393361.2
申请日:2017-08-30
Applicant: 第四范式(北京)技术有限公司
IPC: G06F16/22 , G06F18/214 , G06N20/00
Abstract: 提供一种用于执行机器学习的分布式系统及其方法。所述分布式系统包括:参数服务器,用于维护多个机器学习模型的参数,其中,所述参数具有键值对的形式,所述参数服务器按照单个键对应于多个值的形式来保存具有相同键的多个键值对;以及多个计算装置,被配置为并行地执行关于所述多个机器学习模型的算法。根据所述分布式系统及其方法,能够有效减少在同时进行关于多个机器学习模型的训练和/或预估时参数服务器的存储开销。
-
公开(公告)号:CN111079942B
公开(公告)日:2023-03-24
申请号:CN201911250726.X
申请日:2017-08-30
Applicant: 第四范式(北京)技术有限公司
IPC: G06N20/00
Abstract: 提供了一种执行机器学习的分布式系统及其方法,所述系统包括:多个计算装置,其中,每个计算装置被配置为针对各自的数据记录来执行数据流式计算,其中,所述数据流式计算表示为一个或多个有向无环图;参数存储器,用于维护机器学习模型的参数,其中,在执行训练机器学习模型的数据流式计算时,计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型训练的运算,并且,参数存储器根据计算装置的运算结果来更新所述参数;并且/或者,在执行利用机器学习模型进行预估的数据流式计算时,计算装置利用从参数存储器获取的参数来针对各自的数据记录执行关于机器学习模型预估的运算。由此,可减少机器学习的运算开销。
-
公开(公告)号:CN110751283B
公开(公告)日:2022-11-15
申请号:CN201810731679.X
申请日:2018-07-05
Applicant: 第四范式(北京)技术有限公司
Abstract: 本发明提供了一种模型解释方法、装置、设备及存储介质,用于对机器学习模型针对输入得到的输出进行解释,包括:将输入划分成多个输入部分;针对每个输入部分,在保持其它输入部分不变的情况下,仅对该输入部分进行变换处理,以得到新输入;将每个新输入重新输入机器学习模型,以得到机器学习模型针对新输入得到的新输出;根据新输出与输出之间的差异,确定不同的输入部分对输出的影响;以及将不同输入部分对输出的影响,以可理解的形式告知用户。由此,用户在使用机器学习模型针对输入得到输出后,还可以获知不同输入部分对输出的影响,从而可以在一定程度上理解模型主要是根据输入中哪些部分作出的预测,即输出。
-
公开(公告)号:CN113610240A
公开(公告)日:2021-11-05
申请号:CN202110772622.6
申请日:2017-05-05
Applicant: 第四范式(北京)技术有限公司
IPC: G06N20/00
Abstract: 提供了一种利用嵌套机器学习模型来执行预测的方法及系统,其中,所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型,所述方法包括:(A)获取预测数据记录;(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;(C)将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型,以得到嵌套机器学习模型针对预测样本的预测结果。根据所述系统和方法,能够有效地融合多种类型的子模型来协同工作,充分发挥各个子模型的优势以取得较好的综合机器学习效果。
-
公开(公告)号:CN109447274B
公开(公告)日:2021-02-09
申请号:CN201811206263.2
申请日:2017-08-30
Applicant: 第四范式(北京)技术有限公司
IPC: G06N20/00
Abstract: 提供一种用于执行机器学习的分布式系统及其方法。所述分布式系统包括:参数服务器,用于维护多个机器学习模型的参数,其中,所述参数具有键值对的形式,所述参数服务器按照单个键对应于多个值的形式来保存具有相同键的多个键值对;以及多个计算装置,被配置为并行地执行关于所述多个机器学习模型的算法,其中,所述参数服务器包括至少一个服务器端和多个客户端,其中,每个客户端用于与一个或多个服务器端之间传送关于至少一个机器学习模型的算法所涉及的参数的参数操作指令,其中,与所述每个客户端对应的计算装置被配置为执行关于所述至少一个机器学习模型的算法,其中,在所述参数操作指令中,相同键被压缩和/或合并。
-
公开(公告)号:CN108008942B
公开(公告)日:2020-04-07
申请号:CN201711136593.4
申请日:2017-11-16
Applicant: 第四范式(北京)技术有限公司
Abstract: 提供一种对数据记录进行处理的方法及系统。所述方法包括:(A)获取用户指定的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;(B)向用户提供用于设置字段处理项的图形界面,其中,所述字段处理项用于限定如何对数据表中的字段进行处理;(C)接收用户为了设置字段处理项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的字段处理项;以及(D)基于获取的字段处理项对所述数据表中的字段进行处理,以基于处理后的字段得到与所述数据表中的数据记录相应的机器学习样本的特征。
-
公开(公告)号:CN110689033A
公开(公告)日:2020-01-14
申请号:CN201810731678.5
申请日:2018-07-05
Applicant: 第四范式(北京)技术有限公司
Abstract: 本发明提出了一种应用于模型训练的数据获取方法、装置、设备以及存储介质。获取用户的数据采集需求;对所述数据采集需求进行解析,以确定适于采集的数据所具有的关键字;以及采集具有所述关键字的数据。由此,在用户的数据量不足的情况下,基于本发明可以准确获取应用于模型训练的数据,为后续数据标注、模型训练,提供了数据支持。
-
公开(公告)号:CN110414690A
公开(公告)日:2019-11-05
申请号:CN201810397572.6
申请日:2018-04-28
Applicant: 第四范式(北京)技术有限公司
Abstract: 提供了一种利用机器学习模型执行训练的方法及装置。所述方法包括:获取将针对其执行预测的当前数据记录;获取第一机器学习模型针对所述当前数据记录所涉及的一系列连续数据记录执行预测的过程中所产生的内部状态,以用作与所述当前数据记录相应的序列特征,其中,第一机器学习模型具有循环结构,所述一系列连续数据记录包括在所述当前数据记录之前连续出现的在先数据记录,或者,所述一系列连续数据记录包括在所述当前数据记录之前连续出现的在先数据记录连同所述当前数据记录;产生与所述当前数据记录相应的预测样本,其中,所述序列特征被用作所述预测样本所包括的特征之一;利用第二机器学习模型针对预测样本提供关于预测目标的预测结果。
-
-
-
-
-
-
-
-
-