-
-
公开(公告)号:CN110232085A
公开(公告)日:2019-09-13
申请号:CN201910359658.4
申请日:2019-04-30
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/25 , G06F16/2455
Abstract: 本发明涉及一种大数据ETL任务的编排方法与系统。该方法包括:1)对用户编排的ETL任务进行数据处理组件配置和数据流向配置;2)根据数据处理组件和数据流向,将用户编排的ETL任务生成模型描述语言;3)将模型描述语言解析成ETL任务的有向无环图,所述有向无环图中的节点为数据处理组件,边为数据流向;4)根据ETL任务的有向无环图,通过执行引擎对任务进行执行。在ETL任务执行过程中可对ETL任务执行状况进行监控并对日志进行解析。该系统包括可视化引擎、Rest API接口、执行引擎、监控模块、日志模块。本发明能够可视化配置大数据ETL流程,监控ETL运行状况,提供丰富的数据处理组件,组件可扩展。
-
公开(公告)号:CN106570565A
公开(公告)日:2017-04-19
申请号:CN201611020935.1
申请日:2016-11-21
Applicant: 中国科学院计算机网络信息中心
IPC: G06N3/08
CPC classification number: G06N3/08
Abstract: 本发明提供一种面向大数据的深度学习方法及系统,该系统包括大数据引擎Spark、Protobuf工具、轻量级数据存储LMDB、Caffe深度学习Solver和MPI通信库;所述大数据引擎Spark将待处理数据进行数据处理;所述Protobuf工具将Spark处理后的数据序列化;所述轻量级数据存储LMDB将大数据引擎Spark和Caffe深度学习Solver以松散耦合的形式进行组织;所述Caffe深度学习Solver中每个节点的Caffe Solver通过LMDB访问该节点待训练的数据,并执行深度网络训练;所述MPI通信库聚合不同节点Caffe深度学习Solver的计算结果。
-
公开(公告)号:CN118035190A
公开(公告)日:2024-05-14
申请号:CN202410036687.8
申请日:2024-01-10
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/176 , G06F8/30 , G06F9/445 , G06F21/62 , G06F11/34
Abstract: 本发明公开一种科学数据内容级细粒度可控供给方法及系统,该方法包括:构建科学数据解析器的热加载运行环境;建设科学数据解析器资源池,所述科学数据解析器资源池中的科学数据解析器包括:为所有数据文件提供的默认数据解析器、为常见数据格式的数据文件提供的通用格式数据文件解析器和为特定领域数据文件提供的领域专用数据解析器;建立每一数据文件和科学数据解析器的对应关系,并在所述科学数据解析器资源池更新时,对所述对应关系进行更新;基于所述对应关系组装所述数据文件和所述科学数据解析器,以实现数据文件的线上内容级供给服务。本发明实现了数据利用的安全可控、可用不可见以及可计量可评价。
-
公开(公告)号:CN118035056A
公开(公告)日:2024-05-14
申请号:CN202410154274.X
申请日:2024-02-02
Applicant: 中国科学院计算机网络信息中心
IPC: G06F11/34 , G06F16/903 , G06F16/9032
Abstract: 本发明公开一种面向多模态数据查询的基准测试方法和测试框架,该方法包括:将目标系统接入多模态数据查询的基准测试框架后,得到目标系统执行融合查询任务的基准测试结果;多模态数据查询的基准评测框架包括:仿真数据生成器,用于对结构化数据和非结构化数据进行仿真,以生成扩展属性图模型;工作负载生成器,用于生成至少一个融合查询任务;性能度量计算器,用于使所述目标系统在扩展属性图模型上执行所述融合查询任务,并根据执行所述融合查询任务的性能指标,得到目标系统执行该融合查询任务的基准测试结果。本发明可以对多模态数据管理系统在执行多模态数据融合查询任务时的性能和功能进行定量化的评估。
-
公开(公告)号:CN114579190B
公开(公告)日:2022-10-14
申请号:CN202210145958.4
申请日:2022-02-17
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明公开了一种基于流水线机制的跨数据中心协同计算的编排方法与系统,涉及跨数据中心协同计算技术领域。所述方法包括:各数据中心构建逻辑统一、物理分散的数据资源目录;根据协同分析需求,生成模型描述语言,并基于数据资源目录,使用模型描述语言对协同分析任务进行描述;对协同分析任务进行动态规划,生成跨中心流水线描述语言;基于跨中心流水线描述语言,生成跨中心的流水线子任务,并将流水线子任务分发到各数据中心执行,以向所述用户返回结果。本发明能够可视化配置跨数据中心的协同计算,监控协同计算任务规划及运行状况,能够提升跨数据中心的协同分析服务能力。
-
公开(公告)号:CN112163094B
公开(公告)日:2022-10-14
申请号:CN202010865075.1
申请日:2020-08-25
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/36 , G06F40/279 , G06N5/02
Abstract: 本发明涉及一种科技资源汇聚与持续服务方法及装置。该方法包括:根据特定领域知识库抽取科技实体,并存储到待更新科技实体库;待更新科技实体库向中心科技领域知识图谱进行数据请求;中心科技领域知识图谱根据数据请求中的各类参数,返回特定科技领域知识图谱;将特定科技领域知识图谱与特定领域知识库进行融合,实现对特定领域知识库的更新。本发明能够有效降低特定学科及领域方向的知识库或知识服务系统的运维及资源采购等成本,提高知识服务效率;可以持续增强中心科技领域知识图谱的质量,在被授权的前提下可以为更多的使用方提供更为精准的数据及知识服务;可以最大限度的对知识库进行推广,提高知识服务在不同行业的覆盖及使用范围。
-
公开(公告)号:CN107291807B
公开(公告)日:2020-10-16
申请号:CN201710343003.9
申请日:2017-05-16
Applicant: 中国科学院计算机网络信息中心
IPC: G06F16/2453 , G06F16/245
Abstract: 本发明公开了一种基于图遍历的SPARQL查询优化方法。本方法为:1)使用属性图表示RDF数据中三元组,然后利用Bigtable模型存储RDF数据,得到RDF数据对应的Bigtable数据;2)将SPARQL查询转化对RDF属性图的遍历;3)根据步骤2)获得的遍历序列,遍历Bigtable数据中满足条件的所有节点,完成SPARQL查询。本发明一方面消除了传统SPARQL查询对Hash等数据结构的依赖,减少了中间数据的产生,避免了大规模RDF数据的连接计算;另一方面,能有效利用基于Bigtable的大数据处理技术存储和管理RDF海量关联知识网络数据,加速RDF关联数据的查询和分析。
-
-
-
-
-
-
-