面向数据处理工作流的跨集群流量优化调度方法及系统

    公开(公告)号:CN116339941A

    公开(公告)日:2023-06-27

    申请号:CN202310181479.2

    申请日:2023-02-20

    Abstract: 本发明公开了一种面向数据处理工作流的跨集群流量优化调度方法及系统,可对跨集群运行的数据处理工作流进行作业优化调度的策略,通过对数据处理工作流进行瓶颈点分析,并在瓶颈点处进行跨集群的作业迁移;其主要步骤包括:构建数据处理工作流的分叉‑合并有向无循环图;对该图进行深度优先的后序遍历;在遍历过程中分析每个作业的瓶颈点及瓶颈流量,并在瓶颈点处确定该作业的执行集群。本发明可以减少数据流水线、容器工作流的跨集群数据流量。

    一种学者知识抽取与融合方法及装置

    公开(公告)号:CN112069817A

    公开(公告)日:2020-12-11

    申请号:CN202010692579.8

    申请日:2020-07-17

    Abstract: 本发明公开了一种学者知识抽取与融合方法及装置。本方法为:1)从各设定数据源获取学者相关的文本,并将文本存入学者文本库;2)从学者文本库中抽取实体和实体关系,则生成对应的实体关系对;3)将每一所述实体关系对i与学术领域知识库进行匹配,如果所述实体关系对i与所述学术领域知识库中一实体关系对a完全匹配,则在实体关系对a中标记新数据来源;如果没有匹配的实体关系对,则根据实体关系对i在所述学术领域知识库中创建新一实体关系对b并标记数据来源;如果与实体关系对c部分匹配,则在实体关系对c上增加对应的新实体或关系,并标记数据来源;4)对步骤3)处理后的所述学术领域知识库进行校对,更新学术领域知识库。

    一种基于图遍历的SPARQL查询优化方法

    公开(公告)号:CN107291807A

    公开(公告)日:2017-10-24

    申请号:CN201710343003.9

    申请日:2017-05-16

    Abstract: 本发明公开了一种基于图遍历的SPARQL查询优化方法。本方法为:1)使用属性图表示RDF数据中三元组,然后利用Bigtable模型存储RDF数据,得到RDF数据对应的Bigtable数据;2)将SPARQL查询转化对RDF属性图的遍历;3)根据步骤2)获得的遍历序列,遍历Bigtable数据中满足条件的所有节点,完成SPARQL查询。本发明一方面消除了传统SPARQL查询对Hash等数据结构的依赖,减少了中间数据的产生,避免了大规模RDF数据的连接计算;另一方面,能有效利用基于Bigtable的大数据处理技术存储和管理RDF海量关联知识网络数据,加速RDF关联数据的查询和分析。

    一种科技资源汇聚与持续服务方法及装置

    公开(公告)号:CN112163094A

    公开(公告)日:2021-01-01

    申请号:CN202010865075.1

    申请日:2020-08-25

    Abstract: 本发明涉及一种科技资源汇聚与持续服务方法及装置。该方法包括:根据特定领域知识库抽取科技实体,并存储到待更新科技实体库;待更新科技实体库向中心科技领域知识图谱进行数据请求;中心科技领域知识图谱根据数据请求中的各类参数,返回特定科技领域知识图谱;将特定科技领域知识图谱与特定领域知识库进行融合,实现对特定领域知识库的更新。本发明能够有效降低特定学科及领域方向的知识库或知识服务系统的运维及资源采购等成本,提高知识服务效率;可以持续增强中心科技领域知识图谱的质量,在被授权的前提下可以为更多的使用方提供更为精准的数据及知识服务;可以最大限度的对知识库进行推广,提高知识服务在不同行业的覆盖及使用范围。

    一种基于大语言模型的异构数据库模式集成方法及系统

    公开(公告)号:CN118885522A

    公开(公告)日:2024-11-01

    申请号:CN202410846630.4

    申请日:2024-06-27

    Abstract: 本发明公开一种基于大语言模型的异构数据库模式集成方法及系统,属于大数据技术领域。所述方法包括:基于大语言模型将异构数据库模式转换为统一的中间表示;其中,所述中间表示的结构为图结构;基于大语言模型将多个中间表示合并为一个数据库模式并输出。本发明通过大语言模型对不同数据库模式进行自动理解、映射和整合,实现数据的统一集成和管理,提高数据集成的效率和准确性,降低维护成本。

    基于流水线机制的跨中心协同计算的编排方法与系统

    公开(公告)号:CN114579190A

    公开(公告)日:2022-06-03

    申请号:CN202210145958.4

    申请日:2022-02-17

    Abstract: 本发明公开了一种基于流水线机制的跨数据中心协同计算的编排方法与系统,涉及跨数据中心协同计算技术领域。所述方法包括:各数据中心构建逻辑统一、物理分散的数据资源目录;根据协同分析需求,生成模型描述语言,并基于数据资源目录,使用模型描述语言对协同分析任务进行描述;对协同分析任务进行动态规划,生成跨中心流水线描述语言;基于跨中心流水线描述语言,生成跨中心的流水线子任务,并将流水线子任务分发到各数据中心执行,以向所述用户返回结果。本发明能够可视化配置跨数据中心的协同计算,监控协同计算任务规划及运行状况,能够提升跨数据中心的协同分析服务能力。

    一种大数据ETL任务的编排方法与系统

    公开(公告)号:CN110232085B

    公开(公告)日:2021-09-24

    申请号:CN201910359658.4

    申请日:2019-04-30

    Abstract: 本发明涉及一种大数据ETL任务的编排方法与系统。该方法包括:1)对用户编排的ETL任务进行数据处理组件配置和数据流向配置;2)根据数据处理组件和数据流向,将用户编排的ETL任务生成模型描述语言;3)将模型描述语言解析成ETL任务的有向无环图,所述有向无环图中的节点为数据处理组件,边为数据流向;4)根据ETL任务的有向无环图,通过执行引擎对任务进行执行。在ETL任务执行过程中可对ETL任务执行状况进行监控并对日志进行解析。该系统包括可视化引擎、Rest API接口、执行引擎、监控模块、日志模块。本发明能够可视化配置大数据ETL流程,监控ETL运行状况,提供丰富的数据处理组件,组件可扩展。

    一种基于流水线机制的跨中心协同任务动态规划方法

    公开(公告)号:CN116225642A

    公开(公告)日:2023-06-06

    申请号:CN202211675711.X

    申请日:2022-12-26

    Abstract: 本发明公开了一种基于流水线机制的跨中心协同任务动态规划方法,其步骤包括:1)根据协同需求编排数据源和协同模型算法,配置生成跨中心协同计算任务;2)将跨中心协同计算任务按照是否会产生数据迁移行为为原则进行子任务划分,形成DAG有向无环图;3)根据DAG有向无环图,将不同数据源划分到不同子任务之中;4)当子任务T分配有数据源D时,则将子任务T发送到该数据源D所在数据中心执行;对于未分配数据源的子任务T’,则根据子任务T’的上游子任务执行情况及各数据中心资源情况,确定执行子任务T’的数据中心,然后将子任务T’发送到对应的数据中心执行。本发明实现面向复杂分析场景的跨数据中心协同任务的高效编排与执行。

Patent Agency Ranking