基于算子作用域动态感知的弹性资源分配方法及装置

    公开(公告)号:CN115016928A

    公开(公告)日:2022-09-06

    申请号:CN202210431141.3

    申请日:2022-04-22

    Abstract: 本发明公开了一种基于算子作用域动态感知的弹性资源分配方法及装置。所述方法包括:构建数据流处理应用的有向无环图,所述有向无环图中的节点表示处理数据流的算子,边表示数据流;根据算子的静态筛选率指标和动态筛选率统计指标来评估上游算子的作用域,自适应地将有向无环图进行分区。预测每个分区未来一段时间的负载;针对每个所述分区中的各算子,基于所述负载生成相应数量的算子实例,以对所述接收数据进行实时处理,满足服务质量要求。本发明以分区为单位规划算子的并行性,从而保证端到端处理延迟,提升资源利用率。

    一种数据过滤前置的数据交换方法及系统

    公开(公告)号:CN112650767A

    公开(公告)日:2021-04-13

    申请号:CN202011378190.2

    申请日:2020-11-30

    Abstract: 本发明提供一种数据过滤前置的数据交换方法及系统,包括:接收外网服务器发送的客户端数据查询请求,其中所述客户端数据查询请求根据设定过滤规则生成;解析客户端数据查询请求,将得到的任务发送至元数据库,以得到内部数据;转换接收的内部数据,将得到的外部数据经外网服务器返回至相应客户端。本发明因为数据过滤由数据交换系统内部进行,所以客户端只能接到符合过滤规则的数据,从而保障数据安全,降低了客户端的资源消耗。

    一种面向通用文本格式的解析方法及工具

    公开(公告)号:CN107341135B

    公开(公告)日:2019-11-05

    申请号:CN201710372929.0

    申请日:2017-05-24

    Abstract: 本发明公开了一种面向通用文本格式的解析方法及工具。本方法为:1)对于一待解析数据a,首先将其对应的各种自定义符号导入解析工具中,然后采用指定的文件编码格式读取该待解析数据a;自定义符号包括行分隔符、字段包围符和字段间分隔符;2)解析工具将解析数据a中的自定义符号统一转换文字符串类型;3)解析工具逐个分析所读取的字符,如果该字符及其后面n个字符组成的字符串与行分隔符一致,则根据行分隔符将待解析数据a分割成行数据;4)解析工具分析得到的行数据,根据字段包围符解析出行数据中所有的记录;5)解析工具逐个分析得到的每个记录,根据字段间分隔符解析出每条记录中所有的字段。本发明大大提高了解析效率。

    一种面向Hadoop的通用文本格式的解析方法及工具

    公开(公告)号:CN108021540A

    公开(公告)日:2018-05-11

    申请号:CN201711095981.2

    申请日:2017-11-09

    CPC classification number: G06F17/2217

    Abstract: 本发明公开了一种面向Hadoop的通用文本格式的解析方法及工具。本方法为:1)对于一待解析的文件,将该文件对应的自定义的行分隔符、字段间分隔符和字段包围符保存到Hadoop系统中;2)Hadoop系统判断该文件是否可分割,若该文件可分割,则将该文件分割为多个块,然后进行步骤3);否则直接进行步骤3);3)Hadoop系统根据所述行分隔符解析出该文件的每行数据,然后根据所述字段包围符解析出每条记录包含的所有行数据;然后根据所述字段间分隔符和字段包围符,解析出每条记录中所有的字段。本发明能够根据自定义的符号解析出分布式环境中输入文件的每条记录所有字段,满足了自定义文件的解析要求。

    一种通用的离线数据接入方法及系统

    公开(公告)号:CN107317865A

    公开(公告)日:2017-11-03

    申请号:CN201710521896.1

    申请日:2017-06-30

    Abstract: 本发明公开了一种通用的离线数据接入方法及系统,基于离线数据接入通用处理模板,来适配多种业务数据接入。具有如下优点:1)数据接入与业务耦合度低,数据接入系统更为通用,音视频数据、图片数据、博客数据、即时通信数据等数据源,都可以采用该方法及系统;2)多节点分布式采集数据,在保证数据正确传输的前提下,提供传输的并行度和传输效率,并实现了负载均衡;3)提供完善的异常处理和报错机制;4)实时监控系统运行状态,系统更为稳定。

    一种基于DAG的面向多计算框架的数据处理方法及系统

    公开(公告)号:CN107273193A

    公开(公告)日:2017-10-20

    申请号:CN201710295064.2

    申请日:2017-04-28

    CPC classification number: G06F9/4881

    Abstract: 本发明公开了一种基于DAG的面向多计算框架的数据处理方法及系统。本方法为1)用户根据目标计算场景选取算子生成该目标计算场景;然后向管理器发送保存场景信息的请求;2)管理器将场景信息保存到场景表中;当收到该目标计算场景的执行请求后,读取该场景表生成包含该目标计算场景信息的作业并发送给调度器;3)调度器根据收到的作业生成对应的算子DAG并验证;对于验证通过的算子生成子作业DAG;然后根据生成的子作业DAG确定每一执行阶段并将其发送给执行器;4)执行器将调度器下发的每一执行阶段的子作业解释为该计算框架下的计算逻辑并触发计算;然后将计算结果提交给调度器。本发明提高了计算框架的计算效率。

    一种通用的两个数据库联合查询方法

    公开(公告)号:CN106202573A

    公开(公告)日:2016-12-07

    申请号:CN201610694804.5

    申请日:2016-08-19

    Abstract: 本发明提供一种通用的两个数据库(A,B)联合查询方法,步骤包括:1)从A库的对应表中读出数据生成数据文件,基于该数据文件生成SQL文件,并发送到B库节点;2)通过B库提供的接口建立临时表,并把上述数据文件导入该表中,替换SQL中的表名;3)在B库中执行替换好的SQL,把结果生成数据文件,并发回A库节点;4)在A库中建立临时表,把步骤3)的数据文件导入该表中,并把库名和表名返回给用户。该方法具有通用性,尤其是两数据库网不通的情况,通过把查询结果在其中一个数据库中建表,给用户拿到想要的数据结果。

    一种用于大数据处理的计算系统及计算方法

    公开(公告)号:CN103488775B

    公开(公告)日:2016-08-10

    申请号:CN201310455174.2

    申请日:2013-09-29

    Abstract: 本发明涉及一种用于大数据处理的计算系统及方法,所述系统从下至上依次包括最底层模块、中间层模块和最高层模块,且中间层模块又包括消息传输模块和计算模型模块;最底层模块采用Hadoop分布式文件系统,用于存储数据;消息传输模块用于实现在不同计算节点运行的计算模型模块之间传递消息;在不同计算节点运行的计算模型模块根据所述消息传输模块传递的消息实现协同工作,并各自构建特定类型的计算模型来处理数据;最高层模块用于为计算模型提供编程接口,并以串行的方式组合不同计算模型表达的计算,同时设置不同计算模型之间基于内存流水线方式共享数据。本发明允许在一个系统内采用多种计算模型编写应用程序,能解决更复杂的问题。

    面向复杂混部扰动的在线运行时环境预测方法及装置

    公开(公告)号:CN116910467A

    公开(公告)日:2023-10-20

    申请号:CN202310691596.3

    申请日:2023-06-12

    Abstract: 本发明公开了一种面向复杂混部扰动的在线运行时环境预测方法及装置,该方法包括:针对训练集中的算子,分别收集每一算子和多个算子在空节点上运行时的环境关键指标Ts和环境关键指标Tm;基于该关键指标Ts和环境关键指标Tm,分别建立算子的算子画像和多个算子的画像;基于算子的算子画像和多个算子的画像,训练环境预测模型;获取待检测的混部算子中每一算子的算子画像,并将每一算子的算子画像输入训练后的环境预测模型,以得到待检测的混部算子在空节点上运行时的环境关键指标。本发明可以实时恶意流量检测,有效缓解、过滤和防御针对恶意流量的攻击。本发明能够准确预测复杂混部算子运行时环境。

    一种面向Hadoop的通用文本格式的解析方法及工具

    公开(公告)号:CN108021540B

    公开(公告)日:2023-05-02

    申请号:CN201711095981.2

    申请日:2017-11-09

    Abstract: 本发明公开了一种面向Hadoop的通用文本格式的解析方法及工具。本方法为:1)对于一待解析的文件,将该文件对应的自定义的行分隔符、字段间分隔符和字段包围符保存到Hadoop系统中;2)Hadoop系统判断该文件是否可分割,若该文件可分割,则将该文件分割为多个块,然后进行步骤3);否则直接进行步骤3);3)Hadoop系统根据所述行分隔符解析出该文件的每行数据,然后根据所述字段包围符解析出每条记录包含的所有行数据;然后根据所述字段间分隔符和字段包围符,解析出每条记录中所有的字段。本发明能够根据自定义的符号解析出分布式环境中输入文件的每条记录所有字段,满足了自定义文件的解析要求。

Patent Agency Ranking