基于Avro的通用数据序列化及反序列化方法

    公开(公告)号:CN107229670A

    公开(公告)日:2017-10-03

    申请号:CN201710229253.X

    申请日:2017-04-10

    Abstract: 本发明公开了基于Avro的通用数据序列化及反序列化方法。该方法使用统一的数据格式,从而保证不同表的数据均可用这种方式进行存储,降低不同表的数据与系统之间的耦合度;支持数据的打包存储,可以提供数据的批量传输,大大的提高了传输效率,此外,本发明使用Avro技术对数据进行校验,避免生成错误数据。

    一种基于Spark平台的微博数据预处理方法

    公开(公告)号:CN106372105A

    公开(公告)日:2017-02-01

    申请号:CN201610694772.9

    申请日:2016-08-19

    CPC classification number: G06F16/334 G06F16/313

    Abstract: 本发明涉及一种基于Spark平台的微博数据预处理方法。该方法包括:1)采集微博数据;2)基于Spark平台对采集的微博数据进行去噪处理,并将去噪处理后的微博数据缓存在分布式内存中;3)基于Spark平台对去噪处理后的微博数据进行去重处理,在去重处理中将海明距离小于设定的阈值的文本判定为近似文本。本发明采用Spark平台做为存储及运算的基础,采用内存缓存来提高读写速度,计算节点由Spark平台调度,完成分布式计算,能够实现更准确、高效的去噪、去重功能。

    基于关键词匹配进行中文网页预分类的方法

    公开(公告)号:CN106339459A

    公开(公告)日:2017-01-18

    申请号:CN201610741134.8

    申请日:2016-08-26

    Abstract: 本发明涉及基于关键词匹配进行中文网页预分类的方法,该方法在制作分类算法所需要的训练集的过程中,给每条训练网页进行人工标注的同时,将网页中表征该网页的关键词也标注出来,生成关键词表;对每一条测试网页,首先根据关键词表提取出该网页中出现的关键词,然后通过与训练集进行关键词匹配计算,将训练集的标签转移给该测试网页;如果该预分类方法未能给出训练网页的分类结果,该测试网页需要进行进一步的分类计算。该方法降低了如SVM、KNN、朴素贝叶斯等计算复杂的分类技术的运行时间,同时也使分类结果的准确率和召回率都得到了提高。

    大规模社交网络社区的检测方法及装置

    公开(公告)号:CN103942308A

    公开(公告)日:2014-07-23

    申请号:CN201410158112.X

    申请日:2014-04-18

    CPC classification number: G06F17/30964

    Abstract: 本发明涉及一种大规模社交网络社区的检测方法及装置。方法包括:将输入的大规模社交网络建模成图G=(V,E);通过并行排序算法将图G上的所有节点依节点度的大小关系作降序排列,并计算图G上所有节点的有效度之和DSum;以DSum/P为等分基准参考值,依负载均衡法将图G等分为P个子图;将P个子图通过MapReduce并行计算模型遍历寻找图G上的三角形,基于三角形拓扑结构对图G进行并行化多层粗化,获得最简粗化归约图G’;采用基于遗传学的社区发现算法,对最简粗化归约图G’做初始社区发现,生成社区发现结果;将社区发现结果逐层反粗化还原到图G并伴随作微调优处理,获得图G的社区结构。本发明能够精准而高效地实现大规模社交网络的社区发现和数据分析。

    一种数据过滤前置的数据交换方法及系统

    公开(公告)号:CN112650767B

    公开(公告)日:2023-03-10

    申请号:CN202011378190.2

    申请日:2020-11-30

    Abstract: 本发明提供一种数据过滤前置的数据交换方法及系统,包括:接收外网服务器发送的客户端数据查询请求,其中所述客户端数据查询请求根据设定过滤规则生成;解析客户端数据查询请求,将得到的任务发送至元数据库,以得到内部数据;转换接收的内部数据,将得到的外部数据经外网服务器返回至相应客户端。本发明因为数据过滤由数据交换系统内部进行,所以客户端只能接到符合过滤规则的数据,从而保障数据安全,降低了客户端的资源消耗。

    基于算子作用域动态感知的弹性资源分配方法及装置

    公开(公告)号:CN115016928A

    公开(公告)日:2022-09-06

    申请号:CN202210431141.3

    申请日:2022-04-22

    Abstract: 本发明公开了一种基于算子作用域动态感知的弹性资源分配方法及装置。所述方法包括:构建数据流处理应用的有向无环图,所述有向无环图中的节点表示处理数据流的算子,边表示数据流;根据算子的静态筛选率指标和动态筛选率统计指标来评估上游算子的作用域,自适应地将有向无环图进行分区。预测每个分区未来一段时间的负载;针对每个所述分区中的各算子,基于所述负载生成相应数量的算子实例,以对所述接收数据进行实时处理,满足服务质量要求。本发明以分区为单位规划算子的并行性,从而保证端到端处理延迟,提升资源利用率。

    一种数据过滤前置的数据交换方法及系统

    公开(公告)号:CN112650767A

    公开(公告)日:2021-04-13

    申请号:CN202011378190.2

    申请日:2020-11-30

    Abstract: 本发明提供一种数据过滤前置的数据交换方法及系统,包括:接收外网服务器发送的客户端数据查询请求,其中所述客户端数据查询请求根据设定过滤规则生成;解析客户端数据查询请求,将得到的任务发送至元数据库,以得到内部数据;转换接收的内部数据,将得到的外部数据经外网服务器返回至相应客户端。本发明因为数据过滤由数据交换系统内部进行,所以客户端只能接到符合过滤规则的数据,从而保障数据安全,降低了客户端的资源消耗。

    一种面向通用文本格式的解析方法及工具

    公开(公告)号:CN107341135B

    公开(公告)日:2019-11-05

    申请号:CN201710372929.0

    申请日:2017-05-24

    Abstract: 本发明公开了一种面向通用文本格式的解析方法及工具。本方法为:1)对于一待解析数据a,首先将其对应的各种自定义符号导入解析工具中,然后采用指定的文件编码格式读取该待解析数据a;自定义符号包括行分隔符、字段包围符和字段间分隔符;2)解析工具将解析数据a中的自定义符号统一转换文字符串类型;3)解析工具逐个分析所读取的字符,如果该字符及其后面n个字符组成的字符串与行分隔符一致,则根据行分隔符将待解析数据a分割成行数据;4)解析工具分析得到的行数据,根据字段包围符解析出行数据中所有的记录;5)解析工具逐个分析得到的每个记录,根据字段间分隔符解析出每条记录中所有的字段。本发明大大提高了解析效率。

    一种高可靠分布式数据流实时统计方法及系统

    公开(公告)号:CN107193643B

    公开(公告)日:2019-11-05

    申请号:CN201710192864.1

    申请日:2017-03-28

    Abstract: 本发明公开了一种高可靠分布式数据流实时统计方法及系统。本发明包括三项技术,技术一为基于MapReduce编程模型的分布式数据流计算模型,将MapReducer模型的思想扩展到了集群概念上,每一Map或者Reducer计算单元都是分布式集群中的一节点,分别称作Mapper或Reducer,所有的Mapper节点组成Mapper集群,所有的Reducer节点组成Reducer集群;技术二为带序号的并发数据传递机制,技术三为基于状态与信号的分布式任务管理调度机制,其中技术一通过保证分布式系统的可扩展性,解决了吞吐量的问题;技术二和技术三分别解决了数据可靠性和任务可用性的问题,从而保证了可靠的语义。

    一种面向Hadoop的通用文本格式的解析方法及工具

    公开(公告)号:CN108021540A

    公开(公告)日:2018-05-11

    申请号:CN201711095981.2

    申请日:2017-11-09

    CPC classification number: G06F17/2217

    Abstract: 本发明公开了一种面向Hadoop的通用文本格式的解析方法及工具。本方法为:1)对于一待解析的文件,将该文件对应的自定义的行分隔符、字段间分隔符和字段包围符保存到Hadoop系统中;2)Hadoop系统判断该文件是否可分割,若该文件可分割,则将该文件分割为多个块,然后进行步骤3);否则直接进行步骤3);3)Hadoop系统根据所述行分隔符解析出该文件的每行数据,然后根据所述字段包围符解析出每条记录包含的所有行数据;然后根据所述字段间分隔符和字段包围符,解析出每条记录中所有的字段。本发明能够根据自定义的符号解析出分布式环境中输入文件的每条记录所有字段,满足了自定义文件的解析要求。

Patent Agency Ranking