-
公开(公告)号:CN110706015A
公开(公告)日:2020-01-17
申请号:CN201910775155.5
申请日:2019-08-21
Applicant: 北京大学(天津滨海)新一代信息技术研究院
IPC: G06Q30/02
Abstract: 本发明公开了一种面向广告点击率预测的特征选取方法,包括:步骤(1)构造特征集;步骤(2)对特征集的所有特征进行评估,筛选并标记所有无益特征,并将对模型影响最大的无益特征从特征集中删除,再更新特征集;步骤(3)对无益特征进行评估,筛选并标记该次评估产生的新无益特征,将对模型影响最大的新无益特征删除,再次更新特征集;若未产生新无益特征,则停止操作,得到的特征集为有效特征集;若产生新无益特征,则迭代执行步骤(3),直至未产生新无益特征。本发明采用双向式特征选择方式对特征集进行选择筛选,降低了迭代次数,不需再对特征全集进行迭代,能得到较大的模型提升效果,特征选择工程时间复杂度低,工作效率高。
-
公开(公告)号:CN110689368A
公开(公告)日:2020-01-14
申请号:CN201910780066.X
申请日:2019-08-22
Applicant: 北京大学(天津滨海)新一代信息技术研究院
IPC: G06Q30/02
Abstract: 本发明公开了一种移动应用内广告点击率预测系统设计方法,包括:对广告数据进行集成、清洗和变换的预处理;利用预处理后的广告数据生成特征并构造特征全集;针对所述特征全集进行有效特征选取,选出有效特征集;利用所述有效特征集对广告点击率预测模型进行训练。本发明实施例提供的移动应用内广告点击率预测方法,对广告数据中的长尾数据按照相似性进行归类,按照数据取值频次进行归类,克服了现有技术无法有效利用隐含在长尾数据中的信息的缺陷,充分利用了长尾数据中的信息提升了预测效果。
-
公开(公告)号:CN108256548A
公开(公告)日:2018-07-06
申请号:CN201711261393.1
申请日:2017-12-04
Applicant: 北京大学
CPC classification number: G06K9/6267 , G06F16/35 , G06K9/6256
Abstract: 本发明提供一种基于Emoji使用情况的用户画像刻画方法及系统,该方法的步骤包括:获取一批用户的画像信息和输入过的文本数据;利用正则表达式从所述文本数据中提取出Emoji的原始数据;根据所述Emoji的原始数据得到所述用户的Emoji使用特征;将所述用户划分为训练集和测试集;利用所述训练集中的用户的Emoji使用特征作为自变量,其画像信息作为应变量,训练模型;将训练出的模型应用到所述测试集上,选出评价指标最佳的模型作为最终的用户画像刻画模型。本发明利用了用户文本的Emoji对用户画像刻画,无需分析用户输入文本中的敏感内容,可保护用户隐私。
-
-