-
公开(公告)号:CN103631907A
公开(公告)日:2014-03-12
申请号:CN201310612192.7
申请日:2013-11-26
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/303
Abstract: 本发明涉及一种将关系型数据迁移至HBase的方法及系统,包括关系数据库、HBase数据库、SQL解析模块、查询转换模块和数据模式管理模块;通过在HBase数据库中设计映射关系表,存储原关系数据库中模式信息与HBase数据库中模式信息的映射关系,完整保留了原关系数据库中数据表格的模式信息,且可灵活配置映射方式,为用户提供了更多的选择,且HBase的高效数据组织方式,大大提高了访问性能,节省了存储空间,同时提供数据导出功能,实现与其他子系统的数据交互,另外,数据查询功能支持SQL查询,将SQL查询语句转换成HBase数据库的查询语句,使用户更平滑地过渡到HBase数据库。
-
公开(公告)号:CN103593433A
公开(公告)日:2014-02-19
申请号:CN201310559846.4
申请日:2013-11-12
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30604 , G06F17/3089
Abstract: 本发明涉及一种面向海量时序数据的图数据处理方法及系统,预处理社交网络数据,并抽象出以顶点代表人物,以若干条带有时间戳的边代表人物间互动关系的图结构;该表示方法能够有效的表示有互动时序关系的社交网络关系;根据名人效应将图结构按照预定的欧式距离切分成若干个图结构块,并给图结构块及其内部的顶点编号;按照内存组织方式将图结构块导入内存的相应位置中;该内存存储方式充分利用了图数据的分布特性,能达到高效的存储和查询性能;本发明本着节省计算时间和内存空间的原则,改进了原始以顶点为计算单元的编程模型,而是采用以消息为计算单元的编程模型,这种方式在很大程度上节省了计算时间,也节约了存储空间。
-
公开(公告)号:CN103559108A
公开(公告)日:2014-02-05
申请号:CN201310558217.X
申请日:2013-11-11
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于虚拟化实现主备故障自动恢复的方法及系统,部署包括控制中心和若干台物理机的集群系统,每台物理机上运行若干个虚拟机;所述控制中心实时监控所有物理机的运行状态,每台物理机实时监控其内部若干个虚拟机的运行状态;当出现故障时,判断是虚拟机故障还是物理机故障,然后进行针对性的故障自动恢复处理;本发明将虚拟化技术引入到主从系统的故障恢复中,可自动实现故障感知和故障恢复,不需要人工参与,相比传统的手动恢复方式,可以做到快速故障恢复,将恢复时间控制在分钟级,从而缩短了只有一台机器提供服务的不稳定时间;且本发明既可实现虚拟机故障的快速恢复,还可实现物理机故障的快速恢复,扩大了可靠性的保障范围。
-
公开(公告)号:CN103530189A
公开(公告)日:2014-01-22
申请号:CN201310455128.2
申请日:2013-09-29
Applicant: 中国科学院信息工程研究所
IPC: G06F9/50
Abstract: 本发明涉及一种面向流式数据的自动伸缩及迁移方法,包括以下步骤:调度管理器包括收集模块、调度模块和监控模块,所述调度模块根据待调度作业的信息生成包括多个处理单元的处理单元队列;调度模块将所有处理单元分别分配给对应的物理节点,执行器在处理单元所在的物理节点上创建一个linux容器;收集模块通过监控linux容器的资源利用率得到处理单元的资源利用率;监控模块调整处理单元的资源配额;监控模块将处理单元迁移到其它的资源利用率低的物理节点上。本发明根据实际负载动态调整资源,避免资源浪费,提高了资源利用率,并提出一种处理单元迁移方法,在物理节点负载明显不均衡时,迁移特定的处理节点,实现了面向流式数据的动态负载均衡。
-
公开(公告)号:CN103401937A
公开(公告)日:2013-11-20
申请号:CN201310341764.2
申请日:2013-08-07
Applicant: 中国科学院信息工程研究所
IPC: H04L29/08
Abstract: 本发明涉及一种日志数据处理方法及系统。其中,日志数据处理方法包括:步骤一,设置每个发送端都与所有的服务器相连;步骤二,发送端为自身产生的每条日志分配一个日志标识;步骤三,发送端查询发送记录表中是否存在待发送日志的日志标识,若存在则从发送记录表中获取与该待发送日志的日志标识对应的服务器标识,该服务器标识对应的服务器即为选择的服务器;步骤四,发送端将待发送日志数据直接发送给选择的服务器。本发明的日志数据处理方法及系统,避免了负载均衡器成为性能瓶颈,使得应用本发明日志数据处理方法的系统具有良好的可扩展性,较好地适应了日志分析中输入数据量大、输出数据量小的特点。
-
公开(公告)号:CN103279390A
公开(公告)日:2013-09-04
申请号:CN201310210251.8
申请日:2013-05-30
Applicant: 中国科学院信息工程研究所
IPC: G06F9/50
Abstract: 本发明涉及一种面向小作业优化的并行处理系统,由下至上依次包括资源管理模块、资源伸缩模块、计算系统模块、模型翻译模块和作业逻辑模块;所述资源管理模块实现对整体系统的资源管理并提供管理平台;所述资源伸缩模块在管理平台上为计算系统模块提供工作节点;所述计算系统模块是系统的运行时的环境,用于实现在一个JVMJava虚拟机中的不同线程之间直接共享数据;所述模型翻译模块用于将作业逻辑翻译成运行环境中可识别的工作流;所述作业逻辑模块用于设置数据传输模式和逻辑表达模型。本发明实现了一套编程可扩展、资源可伸缩的并行处理系统Binos,以及Binos-HashMR和Binos-FileMR两套不同的MapReduce编程模型,通过数据存储、传输、处理逻辑等相关方面的优化,显著提高了小作业的执行效率。
-
公开(公告)号:CN117689386A
公开(公告)日:2024-03-12
申请号:CN202311521280.6
申请日:2023-11-15
Applicant: 中国科学院信息工程研究所
IPC: G06Q20/40 , G06F18/241 , G06F18/213 , G06N3/045 , G06N3/0442 , G06N3/0475 , G06N3/094 , G06F123/02
Abstract: 本发明公开了一种基于数据增强的以太坊账户身份识别方法及系统。本方法为:1)根据以太坊网络中的账户交易信息以及以太坊网络中各节点的标签信息,构建全局账户交易图;2)获取每一节点的统计特征、时序交易特征和交易结构特征,并将每一节点及其邻居节点的信息进行聚合得到对应节点的多维融合特征;3)通过生成对抗网络根据各节点的多维融合特征学习得到少样本节点类别的完整特征潜在分布;根据样本的实际分布与完整特征潜在分布之间的差异优化生成对抗网络;然后利用优化后的生成器生成少样本节点类别的多维融合特征;4)利用增强后的样本集训练得到分类器;5)将待识别的以太坊账户的多维融合特征输入到分类器中,得到对应的身份类别。
-
公开(公告)号:CN112308734B
公开(公告)日:2024-01-05
申请号:CN202011162740.7
申请日:2020-10-27
Applicant: 中国科学院信息工程研究所
IPC: G06Q50/06 , G06Q10/0639 , G06N3/0464 , G06N3/0455
Abstract: 本发明公开了一种IT设备非IT能耗的计量、费用分摊方法及电子装置,适用于至少两台同类IT设备与非IT设备组成的系统,包括:将采集的各IT设备信息,输入到特征提取网络,提取相邻服务器之间的交互特征;将交互特征输入到自动编码器网络,得到各IT设备的非IT能耗计量结果。本发明解决了现有技术中存在经验式的、仅基于服务器/虚拟机的能耗粗略地推算出其对应的非IT能耗,未充分考虑其他影响因素的问题,从而提高计量结果的准确率和可靠性。
-
公开(公告)号:CN112070353B
公开(公告)日:2023-09-29
申请号:CN202010771847.5
申请日:2020-08-04
Applicant: 中国科学院信息工程研究所
IPC: G06F30/27 , G06Q50/06 , G06F119/06 , G06F119/02 , G06F119/08 , G06F113/02
Abstract: 本发明公开了一种精确检测数据中心能效的方法及系统。本方法步骤包括:1)集目标数据中心在一设定测量时间范围内各设定测量时间点的数据中心总功率;2)采集该目标数据中心在该各设定测量时间点的IT设备总动态功率;所述IT设备总动态功率是指该目标数据中心的IT设备总功率中随IT设备负载动态波动的功率;3)根据公式#imgabs0#计算该目标数据中心在每一所述设定测量时间点的有用功率比UPR;4)将各所述设定测量时间点的有用功率比UPR的平均值作为该目标数据中心在该设定测量时间范围内的能效评估值。本发明可以为数据中心能效状况提供更可靠的评估。
-
公开(公告)号:CN116755876A
公开(公告)日:2023-09-15
申请号:CN202310583278.5
申请日:2023-05-23
Applicant: 中国科学院信息工程研究所
IPC: G06F9/50 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种大模型混合并行训练加速方法和系统,其步骤包括:1)利用分布式集群采用双向流水线并行方案运行目标大模型,并采集分布式集群的静态数据和动态数据;静态数据包括集群中各GPU之间每次数据传输的通信量和目标大模型每层计算操作的计算量,动态数据包括各GPU之间每次数据传输的通信时间和目标大模型每层计算操作的计算时间;2)依据静态、动态数据构建GPU性能模型,通过平衡流水线利用率和设备利用率对双向流水线并行方案进行优化;3)结合数据并行方案和优化后的双向流水线并行方案构建混合并行方案,并依据GPU性能模型确定混合并行方案的最优混合并行模式;然后按照所确定最优混合并行模式对目标大模型进行训练。
-
-
-
-
-
-
-
-
-