一种多种数据融合质量检验的方法及系统

    公开(公告)号:CN111400299A

    公开(公告)日:2020-07-10

    申请号:CN202010497131.0

    申请日:2020-06-04

    Abstract: 本发明公开了一种多种数据融合质量检验的方法及系统,使用Spark-SQL从数据源中读取数据表,通过Spark集群对读取到的数据表进行质量检验并输出检验报告。本方案则提供统一的界面编辑Spark-SQL,并进行语法检验,由于Spark-SQL可以读取多种数据源的数据,本方案提供多数据源的数据表的融合质量检验。然后通过编排Spark-SQL转换成Spark分布式计算框架进行计算,可以处理TB、PB级别的数据。解决了传统的数据质量检验使用编写程序和python脚本方式进行质量检验,每种不同的场景都需要使用固定的逻辑,没有统一的SQL输入,不同的数据库检验需要使用不同的工具的问题。

    一种系统运维数据的采集分析方法、装置及系统

    公开(公告)号:CN111209179A

    公开(公告)日:2020-05-29

    申请号:CN202010324455.4

    申请日:2020-04-23

    Abstract: 本发明公开了一种系统运维数据的采集分析方法、装置及系统,通过建立系统WMI数据的决策树模型,使用建立好的决策树模型对采集到的系统的WMI数据进行分析。本系统将基于Windows管理规范WMI来采集Windows设备的数据,包括CPU性能,硬件设备信息,内存信息,服务信息,进程信息等数据,基于决策树模型,最后针对采集到的不同设备的数据进行建模,形成预测模型,根据预测模型的预测结果来判断被监控系统的运行状态。解决了现有的运维系统监控一般靠人为设定各个参数的阈值实现,设定的阈值范围一般也是根据经验得到,无法针对每个系统进行的调整以更加适应系统负载,灵活性较差的问题。

    一种基于数据共享构建的控制系统及其控制方法

    公开(公告)号:CN112307129A

    公开(公告)日:2021-02-02

    申请号:CN202011623891.8

    申请日:2020-12-31

    Abstract: 本发明公开了一种基于数据共享构建的控制系统及其控制方法,主要解决现有技术中存在的现有信息资源整合过程中存在的无法对数据细粒度的权限实时控制,无法满足红数据过滤,以及敏感数据脱敏处理,服务提供的能力有限,对应用端有使用限制,服务的管理能力不足的问题。该种基于数据共享构建的控制系统一种基于数据共享构建的控制系统包括依次连接的发布源模块、数据资源模块、服务管理模块、数据门户、数据共享中心;发布源模块与数据共享中心上的信息同步。通过上述方案,本发明达到了满足数据过滤及脱敏处理等目的。

    一种时序数据的存储方法及装置

    公开(公告)号:CN111930751A

    公开(公告)日:2020-11-13

    申请号:CN202010891609.8

    申请日:2020-08-31

    Abstract: 本发明公开了一种时序数据的存储方法及装置,主要解决现有技术中存在的现有时序数据库直接压缩大量数据造成服务器易崩溃的问题。该一种时序数据的存储方法包括以下步骤:将原始数据拆分成不同的数据集后写入不同的子表中;将子表写入时序数据库。通过上述方案,本发明达到了将上万列的度量数据拆分到不同的子表,进行压缩存储;同时提供一种保存子表元数据的存储格式,有效地管理存储子表的目的。

    一种图片颜色提取方法及装置

    公开(公告)号:CN111563937A

    公开(公告)日:2020-08-21

    申请号:CN202010671984.1

    申请日:2020-07-14

    Abstract: 本发明公开了一种图片颜色提取方法及装置,解决了传统的颜色提取一般采用ISOData聚类算法,该聚类中心数目变动范围由初始聚类中心数K0决定,其最终输出的聚类中心数目范围是[K0/2,2K0],当遇到已经知道类别数目范围时,则会产生错误的分类结果的问题。通过改进的ISOData聚类算法提取可视化页面的辅助配色实现设计图辅助配色的自动化配置,避免了使用者还要使用第三方颜色提取工具提取各个主题颜色,然后还要在UE可视化设计界面进行颜色配置的繁琐过程。

    一种基于SparkSQL和物化视图的数据建模方法及装置

    公开(公告)号:CN111399838A

    公开(公告)日:2020-07-10

    申请号:CN202010497130.6

    申请日:2020-06-04

    Abstract: 本发明公开了一种基于SparkSQL和物化视图的数据建模方法及装置,提供多种数据源插件,使用jsplumb给用户提供一个拖拉拽便捷式可视化数据建模方式。并且提供物化视图,提升用户查询自己创建的数据模型性能。解决了针对离线式数据仓库,分析数据的数据量都是很大的,如果执行的SQL任务数据使用传统的JVM或者放到RDBMS里面,对性能和资源的要求较高,在资源不足情况下,会出现创建的数据模型分析失败的问题;同时解决了在对用户数据模型运行之后的物化视图的存储较为单一,无法灵活针对用户存储场景的问题。

    一种基于二维表的存储方法、索引构建方法及存储装置

    公开(公告)号:CN111367920A

    公开(公告)日:2020-07-03

    申请号:CN202010464665.3

    申请日:2020-05-28

    Abstract: 本发明公开了一种基于二维表的存储方法、索引构建方法及存储装置,基于内存中二维表存储和索引提取,主要提出了一种基于二维表数据块存储格式,保存的元数据信息用于索引检索;同时提出了一种对应的多维索引检索方式,高效快速定位要查询的数据块。解决了现有内存存储技术只能通过主键来定位需要的数据而无法根据非主键直接创建索引的问题。具有提升了读取数据的灵活性,针对不同列进行反向索引定位到对应的数据块上,减少了磁盘IO的优点。

    一种ETL系统的高效流程编排方法及系统

    公开(公告)号:CN111291106A

    公开(公告)日:2020-06-16

    申请号:CN202010399861.7

    申请日:2020-05-13

    Abstract: 本发明公开了一种ETL系统的高效流程编排方法及系统,本方案基于分布式计算引擎Spark,将各个操作抽象化并封装为一个个插件,然后提供可视化的流程编排将插件根据处理逻辑串联起来形成有向无环图DAG。以实现对海量数据ETL处理。插件支持动态升级和扩展,只需实现定义的对应接口并上传。插件会动态加载,然后在流程编排界面便能使用该插件。解决了现有方案在处理海量数据时较慢、存在较高的门槛、不够灵活且管理分散不易分析其血缘关系的问题。

    一种大数据运维监控的多平台适配方法

    公开(公告)号:CN111258589A

    公开(公告)日:2020-06-09

    申请号:CN202010370712.8

    申请日:2020-05-06

    Abstract: 本发明公开了一种大数据运维监控的多平台适配方法,对大数据运维监控工具依次进行操作系统校验、主机注册和组件安装的操作,通过对大数据运维监控工具的源代码进行适配的判断和修改,使不能安装在国产操作系统上的大数据运维监控工具能够与国产操作系统进行适配,解决了大数据运维监控作为来源于国外的大数据技术,其大多功能组件均不能直接运行于国产芯片和操作系统平台,大数据运维监控作为大数据应用中的重要功能,同样需要进行国产化兼容的问题。

Patent Agency Ranking