-
公开(公告)号:CN101799808A
公开(公告)日:2010-08-11
申请号:CN200910077660.9
申请日:2009-02-10
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据处理方法和数据处理系统,本发明方法包括:并行执行多个Map任务,其中,每个Map任务获取待处理数据中相应部分的数据,并对获取到的数据进行数据处理,得到所述待处理数据的局部处理结果;执行Reduce任务,所述Reduce任务根据所有局部处理结果得到所述待处理数据的全局处理结果。采用本发明,可提高数据挖掘过程中的数据预处理效率。
-
公开(公告)号:CN106919625B
公开(公告)日:2021-04-09
申请号:CN201511001263.5
申请日:2015-12-28
Applicant: 中国移动通信集团公司
IPC: G06F16/955 , G06F16/901 , G06F16/9535 , G06F16/9536
Abstract: 本发明实施例公开了一种互联网用户属性识别方法和装置,获取标签信息,根据所述标签信息生成标签类目树,所述标签信息至少包括类目级标签;根据所述类目级标签的级数对所述标签类目树进行标签类目编码;根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则;获取用户行为数据,根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。
-
公开(公告)号:CN103188161B
公开(公告)日:2017-11-21
申请号:CN201110453878.7
申请日:2011-12-30
Applicant: 中国移动通信集团公司
IPC: H04L12/803 , H04L29/08 , H04L12/24
Abstract: 本发明公开了一种分布式数据加载调度的方法及系统,其中,该方法包括:控制节点实时收集源加载节点和目的加载节点的运行状态信息;控制节点根据运行状态信息,生成配置更新信息下发给源加载节点和目的加载节点;其中,控制节点位于分布式系统中。本发明的分布式数据加载调度方法和系统,采用动态拓扑生成和自动调度方法,由于采用灵活的配置更新策略,保证了系统的负载均衡和高可靠性,提高了系统吞吐率,提高了数据加载的效率。
-
公开(公告)号:CN103138981B
公开(公告)日:2017-03-29
申请号:CN201110391293.7
申请日:2011-11-30
Applicant: 中国移动通信集团公司
IPC: H04L12/24
Abstract: 本发明公开了一种社交网络分析方法和装置。其中该方法包括:根据社交网络文件生成针对每个节点的节点信息;控制所述社交网络中所有节点根据相应的节点信息进行遍历,遍历所述社交网络所有节点后,得到所述社交网络的拓扑特征值。本发明通过采用多个节点同时并发的机制,即所有节点都并行推送遍历信息,解决了社交网络中需要多次迭代才能遍历完数据的问题,降低了分析的时间复杂度,提高分析效率。
-
公开(公告)号:CN101996198B
公开(公告)日:2016-06-29
申请号:CN200910091866.7
申请日:2009-08-31
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种聚类实现方法及系统。由主控节点将候选队列中的候选样本进行分片,由至少两个计算节点并行地根据设定的ε邻域和最小密度分别确定出分配的分片样本中的每一个样本是否为核心样本;由于各计算节点并行处理,加快了样本数据库中各样本所属聚类的标记速度。本发明由主控节点对样本数据库中当前未标记样本进行分块,将分块样本分配并下发给至少两个计算节点,由各计算节点并行地对候选队列中的候选样本进行处理,再通过合并节点合并各计算节点的处理结果。由于每个计算节点仅处理部分样本,解决了海量数据无法单机处理的问题,且由于可以由多个计算节点及多个并合节点进行并行处理,大大提高了处理效率。
-
公开(公告)号:CN102375734B
公开(公告)日:2014-05-07
申请号:CN201010260985.3
申请日:2010-08-23
Applicant: 中国移动通信集团公司
IPC: G06F9/44
Abstract: 本发明提供了一种应用产品开发系统、方法、装置和运行系统、方法、装置。该开发系统包括开发套件和能力提供层;所述开发套件,从所述能力提供层获取所述应用产品的能力元数据描述,根据所述能力元数据描述生成所述应用产品的描述性文件;所述能力提供层,提供所述应用产品的能力元数据描述;其中,所述能力元数据描述用于描述所述应用产品的各种能力。应用本发明能够方便应用产品的开发,降低对开发人员的要求,同时提高应用产品的升级灵活性。
-
公开(公告)号:CN103188306A
公开(公告)日:2013-07-03
申请号:CN201110455625.3
申请日:2011-12-30
Applicant: 中国移动通信集团公司
IPC: H04L29/08
Abstract: 本发明公开了一种分布式预处理的方法及系统,其中,该方法包括:处理节点接收自源节点发送的数据;管理模块根据处理节点的不同需求配置执行模块的种类和执行顺序;处理节点调用自身部署的由管理模块配置的包含有多个执行模块的执行模块集合对接收的数据进行预处理操作。本发明的分布式预处理方法和系统,可以动态、灵活地管理Process节点的预处理过程,管理执行模块集合,保证Process节点预处理过程的一致性和原子性;系统保证了Process节点的多个执行模块的预处理中间结果都在内存中处理,不需要临时存储,提高了预处理性能。
-
公开(公告)号:CN103164476A
公开(公告)日:2013-06-19
申请号:CN201110425073.1
申请日:2011-12-16
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种BI应用元数据描述文件的执行方法,包括:A、获取并解析BI应用元数据描述文件中的业务层元数据;根据业务层元数据中的业务流程控制元数据,依次执行业务流程控制元数据中的各个BI任务节点;B、根据各个BI任务节点所指向的BI任务元数据描述文件,依次解析并执行各个BI任务元数据。此外,本发明还公开了一种BI应用元数据描述文件的执行装置。本发明采取了上述技术方案以后,具有高效的BI应用处理能力,且其采取层次化调用并执行的方法,能够具有高效执行集成的各种不同的BI任务和工具的优点。
-
公开(公告)号:CN101799810B
公开(公告)日:2012-09-26
申请号:CN200910077996.5
申请日:2009-02-06
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种关联规则挖掘方法及其系统。本发明方法包括:由频繁K项集生成K+1项集;执行多个并行的处理任务,其中,每个处理任务获取事务数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;对所有处理任务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足可信度要求的关联规则时输出该关联规则。采用本发明,可提高关联规则挖掘的处理效率。
-
公开(公告)号:CN101996102A
公开(公告)日:2011-03-30
申请号:CN200910091865.2
申请日:2009-08-31
Applicant: 中国移动通信集团公司
Abstract: 本发明公开了数据关联规则挖掘实现方法及系统。通过主控节点将数据记录进行分块,将分块数据记录分配并分发给至少两个计算节点。由各计算节点并行查找频繁1-项集;并根据排序后的频繁1-项集,产生子数据项串。由合并节点并行对全部子数据项串进行统计,构建本地FP子树。通过合并FP子树,得到合局FP树,进行数据关联规则挖掘。由于每个计算节点仅处理一部分数据记录,解决了海量数据无法由单机读入内存进行处理的问题;且多个节点并行参与处理,有效提高了处理效率。
-
-
-
-
-
-
-
-
-