-
公开(公告)号:CN101996102B
公开(公告)日:2013-07-17
申请号:CN200910091865.2
申请日:2009-08-31
Applicant: 中国移动通信集团公司
Abstract: 本发明公开了数据关联规则挖掘实现方法及系统。通过主控节点将数据记录进行分块,将分块数据记录分配并分发给至少两个计算节点。由各计算节点并行查找频繁1-项集;并根据排序后的频繁1-项集,产生子数据项串。由合并节点并行对全部子数据项串进行统计,构建本地FP子树。通过合并FP子树,得到合局FP树,进行数据关联规则挖掘。由于每个计算节点仅处理一部分数据记录,解决了海量数据无法由单机读入内存进行处理的问题;且多个节点并行参与处理,有效提高了处理效率。
-
公开(公告)号:CN101996197B
公开(公告)日:2012-12-26
申请号:CN200910091864.8
申请日:2009-08-31
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了聚类实现方法及系统。包括:由主控节点对样本分块,并将分块样本分配给至少两个计算节点,由各计算节点并行参与计算,将本地样本归属到对应聚类中,并对每一个聚类统计本地各样本的样本值的和值传送给合并节点,再由合并节点得到每一个聚类的虚拟聚类中心点信息,并传送给主控节点,由主控节点判断是否进行聚类中心点更新,以及是否启动下一轮聚类计算。本发明通过多个节点参与聚类实现过程,在聚类计算及合并过程中通过采用多个节点并行处理,解决了现有技术对海量数据无法实现聚类处理及处理效率低的问题。
-
公开(公告)号:CN102567396A
公开(公告)日:2012-07-11
申请号:CN201010616075.4
申请日:2010-12-30
Applicant: 中国移动通信集团公司
Abstract: 本发明公开了一种基于云计算的数据挖掘方法、系统及装置,用以解决现有数据挖掘过程中效率低,无法满足海量数据处理需求的问题。该系统当PDM服务器接收到web服务器拆分后的用户的数据挖掘请求对应的每个子任务后,根据保存的并行算法,确定每个子任务对应的并行作业任务,向云平台集群控制节点发送该并行作业任务,将接收到的云平台集群控制节点返回的挖掘数据进行整合后提供个web服务器。由于在本发明实施例中该数据挖掘的过程通过web方式实现,因此该数据挖掘的方法可以同时为多个用户提供,并且该数据挖掘的过程中基于并行作业任务进行挖掘,因此有效的提高了数据挖掘的效率。
-
公开(公告)号:CN102411584A
公开(公告)日:2012-04-11
申请号:CN201010291290.1
申请日:2010-09-25
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据搜索方法及系统,包括:采集网页数据和专业数据;并根据采集的网页数据和专业数据分别建立网页数据记录库和专业数据记录库,其中,网页数据记录库中包括若干个网页数据记录,专业数据记录库中包括若干个专业数据记录;并分别建立关键字与网页数据记录的第一索引和关键字与专业数据记录的第二索引;并在接收到用户的第一搜索请求后,按照第一搜索请求中携带的检索关键字查询建立的第一索引和第二索引,获得与检索关键字对应的各网页数据记录和各专业数据记录以及将获得的各网页数据记录和各专业数据记录作为第一搜索结果返回给用户。采用本发明实施例提供的方案,能够为用户提供更准确的信息搜索。
-
公开(公告)号:CN102375734A
公开(公告)日:2012-03-14
申请号:CN201010260985.3
申请日:2010-08-23
Applicant: 中国移动通信集团公司
IPC: G06F9/44
Abstract: 本发明提供了一种应用产品开发系统、方法、装置和运行系统、方法、装置。该开发系统包括开发套件和能力提供层;所述开发套件,从所述能力提供层获取所述应用产品的能力元数据描述,根据所述能力元数据描述生成所述应用产品的描述性文件;所述能力提供层,提供所述应用产品的能力元数据描述;其中,所述能力元数据描述用于描述所述应用产品的各种能力。应用本发明能够方便应用产品的开发,降低对开发人员的要求,同时提高应用产品的升级灵活性。
-
公开(公告)号:CN101799809B
公开(公告)日:2011-12-14
申请号:CN200910077661.3
申请日:2009-02-10
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了数据挖掘方法及数据挖掘系统,本发明方法包括:设置数据挖掘的工作流,所述工作流中包括多个并行的数据处理任务;启动所述工作流,并在所述多个并行的数据处理任务被触发时,为其中的每个数据处理任务分配执行节点,以使所述多个并行的数据处理任务在分配的执行节点上并行执行;以及,所述执行节点在执行每个数据处理任务时,通过Map/Reduce机制将数据处理任务分配给并行执行的Map任务进行处理,将该数据处理任务对应的各Map任务的处理结果通过相应的Reduce任务进行合并处理得到相应数据处理任务的处理结果。采用本发明,可提高数据挖掘效率。
-
公开(公告)号:CN102054002A
公开(公告)日:2011-05-11
申请号:CN200910236747.6
申请日:2009-10-28
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据挖掘系统中决策树的生成方法及装置,主要技术方案包括:A、遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集;B、根据确定的未分类数据属性,确定每个候选节点分别对应的数据属性的属性值;C、根据确定的属性值,分别生成每个节点的决策树分支;D、分别判断每个决策树分支下节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的节点确定为当前层的下一层的候选节点,并将下一层作为当前层返回步骤A,将判断结果为是的节点分别确定为其所在分支的最后一个节点。根据该技术方案,减少了遍历数据集合的次数,从而提高了计算效率,减少了对系统资源的占用。
-
公开(公告)号:CN101799810A
公开(公告)日:2010-08-11
申请号:CN200910077996.5
申请日:2009-02-06
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种关联规则挖掘方法及其系统。本发明方法包括:由频繁K项集生成K+1项集;执行多个并行的处理任务,其中,每个处理任务获取事务数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;对所有处理任务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足可信度要求的关联规则时输出该关联规则。采用本发明,可提高关联规则挖掘的处理效率。
-
公开(公告)号:CN101799808A
公开(公告)日:2010-08-11
申请号:CN200910077660.9
申请日:2009-02-10
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据处理方法和数据处理系统,本发明方法包括:并行执行多个Map任务,其中,每个Map任务获取待处理数据中相应部分的数据,并对获取到的数据进行数据处理,得到所述待处理数据的局部处理结果;执行Reduce任务,所述Reduce任务根据所有局部处理结果得到所述待处理数据的全局处理结果。采用本发明,可提高数据挖掘过程中的数据预处理效率。
-
公开(公告)号:CN106919625B
公开(公告)日:2021-04-09
申请号:CN201511001263.5
申请日:2015-12-28
Applicant: 中国移动通信集团公司
IPC: G06F16/955 , G06F16/901 , G06F16/9535 , G06F16/9536
Abstract: 本发明实施例公开了一种互联网用户属性识别方法和装置,获取标签信息,根据所述标签信息生成标签类目树,所述标签信息至少包括类目级标签;根据所述类目级标签的级数对所述标签类目树进行标签类目编码;根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则;获取用户行为数据,根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。
-
-
-
-
-
-
-
-
-