-
公开(公告)号:CN110738323B
公开(公告)日:2022-06-28
申请号:CN201810717996.6
申请日:2018-07-03
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 周旭辉
Abstract: 本申请实施例公开了基于数据共享建立机器学习模型的方法和装置。该基于数据共享建立机器学习模型的方法的一个具体实施方式包括:获取与训练样本ID相对应的以下数据:训练样本、样本标签以及特征提供端提供的采用ID编码的特征文件;在网络隔离区域中,根据特征提供端技术人员的操作,关联样本标签与采用ID编码的特征文件中的特征,得到关联数据集合;基于训练样本和关联数据集合,训练预设算法模型。该实施方式保证了预设算法模型所采用的特征数据的安全性,也提高了预设算法模型的准确率。
-
公开(公告)号:CN111027579A
公开(公告)日:2020-04-17
申请号:CN201811180164.1
申请日:2018-10-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06K9/62
Abstract: 本发明实施例公开了一种超参数的确定方法、装置、设备和介质,涉及数据处理领域。该方法包括:将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练;对训练的各目标学习模型的预测效果进行测试,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型;继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,根据各目标学习模型的预测效果确定目标超参数组。本发明实施例提供的一种超参数的确定方法、装置、设备和介质,提高了基于优化的超参数的模型预测效果。
-
公开(公告)号:CN107908740B
公开(公告)日:2022-11-22
申请号:CN201711132306.2
申请日:2017-11-15
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 周旭辉
IPC: G06F16/2458 , G06F16/9535 , G06F16/35 , G06Q40/02
Abstract: 本申请实施例公开了信息输出方法和装置。该方法的一具体实施方式包括:获取用户请求,所述用户请求包括用户标识;在用户画像信息集合中查询与所述用户标识匹配的用户画像信息;将查询到的用户画像信息输入预先训练的事件概率预测模型,生成与所述用户标识对应的事件概率信息并输出,所述事件概率预测模型用于表征用户画像信息与事件概率信息的对应关系,所述事件概率信息用于指示预定义事件发生的概率。该实施方式提供了一种基于用户画像信息的预测机制,丰富了输出事件概率信息的方法。
-
公开(公告)号:CN110929106B
公开(公告)日:2022-08-09
申请号:CN201811102022.3
申请日:2018-09-20
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 周旭辉
IPC: G06F16/903
Abstract: 本申请实施例公开了用于获取目标数据的方法及装置。该方法的一具体实施方式包括:从待处理数据集合中获取特征数据;根据最优提升度曲线确定对应上述特征数据的预测提升度值;查询上述预测提升度值对应的属性信息,并根据该属性信息从上述待处理数据集合中选择待处理数据构建目标数据集合。该实施方式提高了获取目标数据的准确性。
-
公开(公告)号:CN110968690B
公开(公告)日:2023-05-23
申请号:CN201811162529.8
申请日:2018-09-30
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 周旭辉
IPC: G06F16/35 , G06F40/289
Abstract: 本发明实施例公开了一种词语的聚类划分方法和装置、设备以及存储介质。所述方法包括:根据样本文本中词语之间的关系确定各个词语的词语向量;根据设定范围内的各词语的词语向量确定各词语的层级聚类划分结果,其中,层级聚类划分结果包括至少两层聚类结果,每层聚类结果对所有词语采用对应的聚类尺度进行聚类,各层聚类结果对应的聚类尺度不同。本发明实施例的技术方案解决了现有技术中词语分类划分费时费力、计算量大的技术缺陷,实现了在引用人类知识的同时,可以省时省力、准确、有效且小计算量地对词语集合进行不同聚合度的划分。
-
公开(公告)号:CN110738323A
公开(公告)日:2020-01-31
申请号:CN201810717996.6
申请日:2018-07-03
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 周旭辉
Abstract: 本申请实施例公开了基于数据共享建立机器学习模型的方法和装置。该基于数据共享建立机器学习模型的方法的一个具体实施方式包括:获取与训练样本ID相对应的以下数据:训练样本、样本标签以及特征提供端提供的采用ID编码的特征文件;在网络隔离区域中,根据特征提供端技术人员的操作,关联样本标签与采用ID编码的特征文件中的特征,得到关联数据集合;基于训练样本和关联数据集合,训练预设算法模型。该实施方式保证了预设算法模型所采用的特征数据的安全性,也提高了预设算法模型的准确率。
-
公开(公告)号:CN107911449A
公开(公告)日:2018-04-13
申请号:CN201711132355.6
申请日:2017-11-15
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: H04L67/26 , G06F17/30867 , H04L67/325
Abstract: 本申请实施例公开了用于推送信息的方法和装置。该方法的一具体实施方式包括:获取至少两个候选用户的第一属性信息;基于所获取的第一属性信息对至少两个候选用户进行筛选,确定目标用户集合;对于所确定的目标用户集合中的每个目标用户,获取该目标用户的第二属性信息;基于该目标用户的第一属性信息和第二属性信息,生成针对该目标用户的推荐信息并进行推送。该实施方式实现了富于针对性的信息推送。
-
公开(公告)号:CN110968690A
公开(公告)日:2020-04-07
申请号:CN201811162529.8
申请日:2018-09-30
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 周旭辉
IPC: G06F16/35 , G06F40/289
Abstract: 本发明实施例公开了一种词语的聚类划分方法和装置、设备以及存储介质。所述方法包括:根据样本文本中词语之间的关系确定各个词语的词语向量;根据设定范围内的各词语的词语向量确定各词语的层级聚类划分结果,其中,层级聚类划分结果包括至少两层聚类结果,每层聚类结果对所有词语采用对应的聚类尺度进行聚类,各层聚类结果对应的聚类尺度不同。本发明实施例的技术方案解决了现有技术中词语分类划分费时费力、计算量大的技术缺陷,实现了在引用人类知识的同时,可以省时省力、准确、有效且小计算量地对词语集合进行不同聚合度的划分。
-
公开(公告)号:CN107908740A
公开(公告)日:2018-04-13
申请号:CN201711132306.2
申请日:2017-11-15
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 周旭辉
CPC classification number: G06F17/30539 , G06F17/30705 , G06F17/30867 , G06Q40/025
Abstract: 本申请实施例公开了信息输出方法和装置。该方法的一具体实施方式包括:获取用户请求,所述用户请求包括用户标识;在用户画像信息集合中查询与所述用户标识匹配的用户画像信息;将查询到的用户画像信息输入预先训练的事件概率预测模型,生成与所述用户标识对应的事件概率信息并输出,所述事件概率预测模型用于表征用户画像信息与事件概率信息的对应关系,所述事件概率信息用于指示预定义事件发生的概率。该实施方式提供了一种基于用户画像信息的预测机制,丰富了输出事件概率信息的方法。
-
公开(公告)号:CN110929106A
公开(公告)日:2020-03-27
申请号:CN201811102022.3
申请日:2018-09-20
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 周旭辉
IPC: G06F16/903
Abstract: 本申请实施例公开了用于获取目标数据的方法及装置。该方法的一具体实施方式包括:从待处理数据集合中获取特征数据;根据最优提升度曲线确定对应上述特征数据的预测提升度值;查询上述预测提升度值对应的属性信息,并根据该属性信息从上述待处理数据集合中选择待处理数据构建目标数据集合。该实施方式提高了获取目标数据的准确性。
-
-
-
-
-
-
-
-
-