一种创建大数据服务的方法及装置

    公开(公告)号:CN111427949A

    公开(公告)日:2020-07-17

    申请号:CN201910020151.6

    申请日:2019-01-09

    Inventor: 韩卫 郭峰 刘中军

    Abstract: 本申请是关于一种创建大数据服务的方法及装置,属于数据挖掘领域。所述方法包括:主节点根据M个大数据服务中的每个大数据服务对应的大数据服务组件模板和每个大数据服务的配置参数,生成每个大数据服务的容器镜像,构建服务集群,所述服务集群包括所述主节点和N个代理节点,安装有服务镜像以及每个代理节点安装有代理镜像,根据可执行文件和组件配置文件在所述服务集群中创建大数据服务,所述可执行文件包括至少一个大数据服务组件的组件标识,所述组件配置文件包括所述每个大数据服务组件的部署文件存储路径。本申请能够快速创建大数据服务。

    数据存储及处理方法、装置、设备、介质

    公开(公告)号:CN111190949A

    公开(公告)日:2020-05-22

    申请号:CN201811358065.8

    申请日:2018-11-15

    Abstract: 本发明提供一种数据存储及数据处理方法、装置、设备、介质,该方法应用于第一设备,第一设备用于任务调度,该方法包括:对获取的多条spark数据进行分区;针对每一分区,将该分区中的spark数据携带在存储任务中发送至用于执行任务的第二设备,所述第二设备与该分区对应,以使所述第二设备将所述存储任务携带的spark数据存储至分区缓存块并发送所述分区缓存块的标识B1至所述第一设备;接收并记录来自于各个第二设备发送的B1。存储粒度较细,存储时无需结构化处理,有利于提高存储时的处理速度。

    一种数据查询方法、装置及系统

    公开(公告)号:CN106959963B

    公开(公告)日:2020-04-28

    申请号:CN201610017764.0

    申请日:2016-01-12

    Abstract: 本发明实施例提供的一种数据查询方法、装置及系统,应用于分布式数据存储系统中的查询服务器,该方法包括:接收客户端发送的连接请求后,建立与客户端之间的通信连接;接收客户端发送查询请求,其中,查询请求中携带待查询字段的标识、字段值、针对待查询字段的查询条件以及待查询字段之间的查询关系;判断查询请求中携带的待查询字段的标识对应的待查询字段是否全部为预设字段;若为是,根据查询请求中携带的待查询字段的标识、待查询字段的字段值在该查询服务器中已存储的索引信息中进行查询,获得索引信息,并根据所获得的索引信息生成查询结果。应用本发明实施例,可以通过查询索引信息的方式快速获得待查询数据的查询结果。

    数据采集系统、方法、节点设备及存储介质

    公开(公告)号:CN110597890A

    公开(公告)日:2019-12-20

    申请号:CN201810515496.4

    申请日:2018-05-25

    Inventor: 郭峰

    Abstract: 本发明公开了一种数据采集系统、方法、节点设备及存储介质,属于大数据技术领域。数据采集系统包括多个数据处理模块;数据采集系统中第一个数据处理模块用于当获取到数据源的任一批数据时,指示数据源提供下一批数据;数据采集系统中任一个数据处理模块用于对已接收到的任一批数据执行对应的数据处理操作时,接收下一批数据;数据采集系统中最后一个数据处理模块用于将处理后的数据存储至第一存储源中。本发明设计了全异步式的系统架构,保证数据采集系统可以同时针对多批数据进行处理,避免数据处理模块要等待其他数据处理模块执行数据处理操作完成后才能开始处理数据的情况,提高了数据采集的效率。

    一种SQL语句执行方法及装置

    公开(公告)号:CN107818100A

    公开(公告)日:2018-03-20

    申请号:CN201610818671.8

    申请日:2016-09-12

    Abstract: 本发明实施例提供了一种SQL语句执行方法及装置,所述方法包括:接收待执行的目标SQL语句;针对各编译过程,在本地保存的该编译过程输入与输出的对应关系中,查找是否存在与所述目标SQL语句在该编译过程的输入匹配的目标输入;如果存在,将所述目标输入对应的目标输出作为所述目标SQL语句在该编译过程的输出;如果不存在,根据所述目标SQL语句在该编译过程的输入,对所述目标SQL语句进行相应的编译,得到所述目标SQL语句在该编译过程的输出,将该输出作为所述目标SQL语句在下一编译过程的输入;当得到所述目标SQL语句在物理优化阶段输出的物理执行树时,将所述物理执行树输入执行引擎执行。本发明实施例能够提高SQL语句的执行速度。

    数据获取方法及装置
    6.
    发明公开

    公开(公告)号:CN106959960A

    公开(公告)日:2017-07-18

    申请号:CN201610016651.9

    申请日:2016-01-11

    CPC classification number: G06F16/284

    Abstract: 本发明实施例提供了一种数据获取方法及装置,所述方法的一具体实施方式包括:接收数据获取请求,所述数据获取请求包括至少一个关键词;确定各关键词的维度属性,并根据各维度属性与各标识信息的对应关系及各关键词与各标识信息的对应关系,确定所述数据获取请求中包括的各关键词对应的标识信息及各关键词的维度属性对应的标识信息;根据预设合并规则,将所述各关键词对应的标识信息及各关键词的维度属性对应的标识信息合并,得到所述数据获取请求对应的至少一个目标键值;基于所述目标键值,从预先保存的包含有各键值与各数据对应关系的立方表中,获取与所述数据获取请求匹配的数据。本实施例能够提高数据获取效率。

    一种数据处理系统及模型训练方法

    公开(公告)号:CN114064312A

    公开(公告)日:2022-02-18

    申请号:CN202111332051.0

    申请日:2021-11-11

    Inventor: 郭峰

    Abstract: 本发明实施例提供了一种数据处理系统及模型训练方法,涉及大数据处理技术领域。系统包括至少一个任务节点,每个任务节点包括:至少一个数据计算子节点、至少一个模型训练子节点和共享内存;各个数据计算子节点是实时数据计算系统中的子节点,各个模型训练子节点是模型训练系统中的子节点;各个数据计算子节点,用于对获取到的第一待处理实时数据执行指定处理操作,得到第一处理结果,并将第一处理结果存储到共享内存;各个模型训练子节点,用于从共享内存读取第一处理结果,利用第一处理结果进行模型训练,得到训练完成的目标模型。与现有技术相比,应用本发明实施例提供的方案,可以提高实时数据的处理结果的时效性。

    一种存储数据的方法及装置

    公开(公告)号:CN110851435B

    公开(公告)日:2022-02-11

    申请号:CN201810878972.9

    申请日:2018-08-03

    Inventor: 阮彬彬 郭峰 李森

    Abstract: 本申请是关于一种存储数据的方法及装置,属于监控领域。所述方法包括:从Kafka中获取待存储数据,所述待存储数据包括用户标识;根据所述用户标识,从用户标识与有向无环图Dag的对应关系中获取对应的Dag,所述Dag是根据多个数据库的写入顺序建立的,所述多个数据库的写入顺序是所述用户标识对应的用户配置的,所述Dag中的节点用于存储数据库的标识,所述节点的至少一个子节点用于存储写入顺序位于所述数据库之后的数据库的标识;根据所述Dag中包括的各数据库的写入顺序,将所述待存储数据存储到所述各数据库中。本申请能够实现按照用户需要的数据库存储顺序将数据存储到数据库中。

    数据分区拆分方法及装置

    公开(公告)号:CN110209431B

    公开(公告)日:2021-04-27

    申请号:CN201810166045.4

    申请日:2018-02-28

    Inventor: 郭峰 管国辰

    Abstract: 本发明公开了一种数据分区拆分方法及装置,属于存储技术领域。所述方法包括:接收拆分策略更新指令,所述拆分策略更新指令至少携带拆分策略;解析所述拆分策略更新指令,得到所述拆分策略;加载所述拆分策略;基于所述拆分策略,对待拆分的数据分区进行拆分。本发明中服务器更新的拆分策略在本次运行过程中即可生效,而无需重启,避免了业务的中断,极大地提高了更新拆分策略的效率。

    数据存储及数据查询方法、装置、设备、介质

    公开(公告)号:CN111177077A

    公开(公告)日:2020-05-19

    申请号:CN201811330460.5

    申请日:2018-11-09

    Inventor: 李森 郭峰 陈小龙

    Abstract: 本发明提供一种数据存储及数据查询方法、装置、设备、介质,该方法应用于电子设备,包括:依据目标时间戳确定需存储的目标数据所处的目标时间区间;将所述目标时间区间发送至本设备加载的spark引擎,以由所述spark引擎依据所述目标时间区间从spark数据文件中获取目标数据并将所述目标数据转换为目标弹性分布式数据集RDD;从所述spark引擎获取目标RDD,并将所述目标RDD存储到所述spark引擎对应的RDD缓存空间中。解决因无法针对感兴趣时间段的数据进行操作而导致的操作效率低的问题。

Patent Agency Ranking