-
公开(公告)号:CN111126423B
公开(公告)日:2024-11-08
申请号:CN201811296525.9
申请日:2018-11-01
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F18/214 , G06F18/243 , G06F18/25 , G06N20/20 , G06N5/01
Abstract: 本发明实施例公开了一种特征集获取方法、装置、计算机设备及介质,所述方法包括:获取当前stacking层的输入特征集,得到当前stacking层的分类结果值;将分类结果值与历史分类最大值进行比较;若分类结果值不小于最大值,则将当前stacking层的输入特征集中特征的特征值增加,根据调整后的输入特征集获得下一stacking层的输入特征集;若分类结果值小于最大值,则将当前stacking层的输入特征集与最大值对应的输入特征集的差集中特征的特征值减小,根据调整后的差集获得下一stacking层的输入特征集,加快了stacking阶段收敛到最终的最优解的过程,提高了模型训练效率。
-
公开(公告)号:CN111177526B
公开(公告)日:2023-08-15
申请号:CN201811339804.9
申请日:2018-11-12
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/9535 , G06F16/35
Abstract: 本发明实施例提供一种网络意见领袖识别方法及装置,属于网络领域。所述方法包括:对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据;根据所述关系数据计算预定的网络指标,其中,所述网络指标是用于表征关系数据中用户的重要性的指标;对所述数据源的所述用户的所述行为数据进行主题分类;以及根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数,以识别针对不同主题的意见领袖。通过将主题类型与用户的意见领袖分数相关联,使得能够快速、准确地识别出针对特定主题分类的意见领袖。
-
公开(公告)号:CN111125498B
公开(公告)日:2023-06-06
申请号:CN201811278701.6
申请日:2018-10-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/9535
Abstract: 本发明提出一种用户属性区分方法、装置、设备和计算机可读介质,所示方法包括:推送不同类别的资讯至用户;接收用户的资讯点击数据,获取各个类别的重度用户和负反馈用户;所述重度用户为对推送的资讯的点击频次或频率大于设定阈值的用户,所述负反馈用户为对推送的资讯的点击频次或频率小于设定阈值的用户;对每个类别的重度用户和负反馈用户进行差异分析,获取每个类别的重度用户的类别属性。本发明实施例可以有效地分析某个类别特别倾向的用户群体的属性特点,更能突出群体的共性特点,能够区分真正喜欢以及真正不喜欢的人群的差异。
-
公开(公告)号:CN107229731B
公开(公告)日:2021-05-25
申请号:CN201710427453.6
申请日:2017-06-08
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 戴明洋
IPC: G06F16/35 , G06F16/335 , G06F40/284 , G06F40/258
Abstract: 本申请公开了用于分类数据的方法和装置。方法的一具体实施方式包括:采用各预定类别的初始过滤词集合,过滤原始数据,得到各预定类别的原始样本集合;对原始样本集合进行分类处理,得到验证的准确率满足阈值的更新后的样本集合;其中,分类处理包括:对原始样本集合进行过滤处理,得到更新后的样本集合,对更新后的样本集合进行验证,得到验证的准确率,响应于验证的准确率不满足阈值,对原始样本集合进行分类处理直至准确率满足阈值。该实施方式自动的学习计算出准确率满足阈值的更新后的样本集合,提高了更新后的样本集合的准确率,增强了对于未知样本的分类能力。
-
公开(公告)号:CN107229614A
公开(公告)日:2017-10-03
申请号:CN201710517316.1
申请日:2017-06-29
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 戴明洋
Abstract: 本申请公开了用于分类数据的方法和装置。方法的一具体实施方式包括:对原始数据进行分词,得到原始样本集;基于文档主题生成模型,将原始样本集聚类至预定数量的主题;查询预设的领域表征词是否命中从主题提取的主题表征词,若是,则将主题表征词归类至领域表征词所表征的领域;基于领域中的主题表征词,确定领域的初始样本集。该实施方式由于类别内部的样本多样性好,提高了初始样本集的准确率,增强了对于未知样本的分类能力。
-
公开(公告)号:CN111738009B
公开(公告)日:2023-10-20
申请号:CN201910208175.4
申请日:2019-03-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/30 , G06F40/279
Abstract: 本申请提出一种实体词标签生成方法、装置、计算机设备和可读存储介质,其中,方法包括:将待处理的第一实体词进行语义识别,以确定第一实体词对应的第一词向量;根据第一词向量与各第二词向量间的相似度,确定第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应;将第一词簇对应的标签,确定为第一实体词对应的标签。该方法能够实现自动为实体词打标签,提升标签生成的效率,并且生成的标签不受限于人的主观知识影响,可以提升标签生成的准确性。
-
公开(公告)号:CN111738009A
公开(公告)日:2020-10-02
申请号:CN201910208175.4
申请日:2019-03-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/30 , G06F40/279
Abstract: 本申请提出一种实体词标签生成方法、装置、计算机设备和可读存储介质,其中,方法包括:将待处理的第一实体词进行语义识别,以确定第一实体词对应的第一词向量;根据第一词向量与各第二词向量间的相似度,确定第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应;将第一词簇对应的标签,确定为第一实体词对应的标签。该方法能够实现自动为实体词打标签,提升标签生成的效率,并且生成的标签不受限于人的主观知识影响,可以提升标签生成的准确性。
-
公开(公告)号:CN111127232A
公开(公告)日:2020-05-08
申请号:CN201811291543.8
申请日:2018-10-31
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06Q50/00
Abstract: 本发明实施例公开了一种兴趣圈发现方法、装置、服务器和介质,其中,该方法包括:基于至少两种数据源构建关系网络结构,其中,关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;利用特定算法发现关系网络结构中的团块,将每个团块作为发现的兴趣圈。本发明实施例解决了基于单数据源发现兴趣圈的方案合理性较低的问题,提高了兴趣圈发现的合理性。
-
公开(公告)号:CN111126731A
公开(公告)日:2020-05-08
申请号:CN201811285636.X
申请日:2018-10-31
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例提供一种社区质量确定方法、装置及设备,该方法包括:确定第一社区中每个顶点对顶点对应的第一邻接顶点的引力,一个顶点对应的第一邻接顶点为与该顶点构成三角形的邻接顶点;根据第一社区中每个顶点对顶点对应的第一邻接顶点的引力,确定第一社区的凝聚度,第一社区的凝聚度用于指示第一社区的内部紧密型和外部稀疏性;根据第一社区的凝聚度,确定第一社区的质量。提高了对社区质量判断的准确性。
-
公开(公告)号:CN111125506A
公开(公告)日:2020-05-08
申请号:CN201811295606.7
申请日:2018-11-01
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/9535 , G06Q50/00
Abstract: 本发明实施例公开了一种兴趣圈主题确定方法、装置、服务器和介质,其中,该方法包括:基于目标兴趣圈中用户间发生交互行为所针对的数据源,确定出每个用户对应的至少一个关注词;统计每个关注词在目标兴趣圈的全部用户中出现的目标圈用户频数,以及每个关注词在网络内的全部用户中出现的网络用户频数;根据目标圈用户频数、网络用户频数以及目标兴趣圈总用户数、网络总用户数计算每个关注词的目标群体指数;利用目标圈用户频数和目标群体指数对至少一个关注词进行过滤,利用过滤后得到的至少一个关注词确定目标兴趣圈的主题。本发明实施例解决了现有技术中确定兴趣圈主题的准确性较低的问题,提高了兴趣圈主题确定的准确性和针对性。
-
-
-
-
-
-
-
-
-