-
公开(公告)号:CN116860658B
公开(公告)日:2024-05-28
申请号:CN202310739729.X
申请日:2023-06-21
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及一种面向大数据处理框架的高效半自动垃圾回收方法和系统,通过区分大数据框架中的普通对象与数据对象,本发明消除了垃圾收集过程中数据对象不必要的标记和复制开销。本发明包括:数据对象分析器为大数据框架开发者提供两个注解,分别表示数据对象的创建和释放,Java虚拟机可以根据注解跟踪数据对象的生命周期,并优化数据对象的管理;基于标签的分配器可以有效地区分数据对象和普通对象,并将它们分开存储在堆空间中;基于消息的垃圾收集器可以消除数据对象不必要的标记和复制开销。与同类产品相比,本发明可以有效地减少大数据应用的垃圾收集时间和运行时间,提高Java虚拟机在大数据环境下的内存管理效率。
-
公开(公告)号:CN109033234B
公开(公告)日:2021-09-14
申请号:CN201810721794.9
申请日:2018-07-04
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及一种基于状态更新传播的流式图计算方法及系统,基于状态更新传播的流式图计算模型,能够在原有图状态基础上,并发计算增量信息的影响,而无需在整个图上重新计算;同时通过细粒度分布式锁,实现状态的并发更新,保证计算结果的正确性。通过真实的数据集对本发明进行实时性和准确性测试,结果表明基于状态更新传播的流式图计算模型构建的算法能够得到较为准确的计算结果,计算偏差在1%以内;90%的图数据更新请求都能够在12ms内得到响应,符合实时性要求;任意两个计算节点更新冲突的概率在3%以内,可以满足高并发的需求。
-
公开(公告)号:CN107122443B
公开(公告)日:2019-09-17
申请号:CN201710269870.2
申请日:2017-04-24
Applicant: 中国科学院软件研究所
IPC: G06F16/33
Abstract: 本发明涉及一种基于Spark SQL的分布式全文检索系统及方法,包括SQL翻译层、数据源管理层、并行计算层、分布式存储层,在SQL翻译层中提出了基于SQL的全文检索文法以及全文检索SQL语句在SQL翻译层各模块间的翻译过程;在数据源管理模块设计了全文检索过程的并行化方法;检索优化模块中,设计了两种索引存储模型和相应的查询时原表数据还原策略,其中基于索引指定列存储模型设计了一种用于在查询时还原原表数据、复杂度为O(n)的分区对齐连接算法。在两种存储模型下,索引构建时间缩短为传统数据库的0.6%/0.5%,查询时间缩短为传统数据库的1%/10%,索引存储量减少为传统数据库的55.0%。增强了Spark SQL数据分析功能,能够满足传统业务迁移和现有业务对海量数据进行全文检索的需求。
-
公开(公告)号:CN112579259B
公开(公告)日:2022-07-15
申请号:CN202011472196.6
申请日:2020-12-14
Applicant: 中国科学院软件研究所
IPC: G06F9/455
Abstract: 本发明涉及一种面向大数据处理框架的GC自适应调节方法及装置,通过分别在大数据框架和执行器JVM当中,采集当前的大数据操作信息和内存状态信息,预测大数据应用每一个处理阶段的内存使用需求;同时根据预测结果,按照一定的逻辑规则对执行器JVM的GC参数进行自适应调整,并实现了在运行时动态修改GC参数的接口。本发明能够适应大数据应用不断变化的内存使用特点,降低执行器JVM的GC触发频率和全局暂停时间,提高JVM在大数据环境下的内存管理效率。
-
公开(公告)号:CN109033234A
公开(公告)日:2018-12-18
申请号:CN201810721794.9
申请日:2018-07-04
Applicant: 中国科学院软件研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于状态更新传播的流式图计算方法及系统,基于状态更新传播的流式图计算模型,能够在原有图状态基础上,并发计算增量信息的影响,而无需在整个图上重新计算;同时通过细粒度分布式锁,实现状态的并发更新,保证计算结果的正确性。通过真实的数据集对本发明进行实时性和准确性测试,结果表明基于状态更新传播的流式图计算模型构建的算法能够得到较为准确的计算结果,计算偏差在1%以内;90%的图数据更新请求都能够在12ms内得到响应,符合实时性要求;任意两个计算节点更新冲突的概率在3%以内,可以满足高并发的需求。
-
公开(公告)号:CN112633388A
公开(公告)日:2021-04-09
申请号:CN202011578216.8
申请日:2020-12-28
Applicant: 中国科学院软件研究所
Abstract: 本发明公开了一种面向社交网络的分布式用户聚类方法,其步骤包括:1)根据社交网络图数据生成用户关系图;2)基于节点切分的方式对该用户关系图进行划分,并分发到不同的机器上;3)根据边所连两节点的邻居节点列表,计算出两节点之间的相似度;4)根据边上的相似度是否大于设定的阈值e确定边的属性值并发送给该边所连的两个节点,每个节点将收到的属性值相加得到该节点的属性值,如果节点的属性值大于阈值μ,则将该节点为核心节点;5)各核心节点所在机器向相邻节点发送自身节点的标签,用于更新节点自身的标签;当没有任何核心节点修改自身的标签时,将拥有相同标签的节点划分到一个簇中。
-
公开(公告)号:CN112597076A
公开(公告)日:2021-04-02
申请号:CN202011525754.0
申请日:2020-12-22
Applicant: 中国科学院软件研究所
IPC: G06F12/121 , G06F12/06
Abstract: 本发明公开了一种面向Spark的基于数据感知的缓存替换方法,属于软件技术领域,通过分析Spark框架的应用数据依赖关系和历史执行信息,获取数据块的被依赖次数、占用内存空间大小、计算用时和被引用次数,基于这些因素建立权重模型,计算出数据块的权重;将数据块权重值从小到大排序,选择权重值较小数据且与待缓存的数据块不属于同一个RDD的数据块进行缓存替换。本发明针对现有应用负载特征多样性,应用对内存资源需求的持续变化性,动态感知用户负载特征,并根据历史运行信息,计算得到的权重值,衡量缓存替换最合适的数据,并实时结合当前内存资源情况作出替换决定,实现Spark框架缓存管理机制的优化。
-
公开(公告)号:CN108683560B
公开(公告)日:2021-03-30
申请号:CN201810461515.X
申请日:2018-05-15
Applicant: 中国科学院软件研究所
IPC: H04L12/26 , H04L12/807 , H04L12/803
Abstract: 本发明涉及一种大数据流处理框架的性能基准测试系统及方法,系统由流式负载生成器、流式场景与应用构造器、性能数据采集工具和性能数据分析工具四个部分组成。本发明通过选取符合流式处理模式计算特征的应用,生成符合流式处理模式数据特征的负载,测试大数据流处理框架在典型场景与应用下的性能表现,采集运行时的反压、吞吐量、延迟、系统资源、节点数据等性能指标,最后通过分析和统计采集数据来诊断流处理框架的瓶颈所在。
-
公开(公告)号:CN110543588A
公开(公告)日:2019-12-06
申请号:CN201910795304.4
申请日:2019-08-27
Applicant: 中国科学院软件研究所
IPC: G06F16/906
Abstract: 本发明涉及一种面向大规模流数据的分布式聚类方法及系统,通过构造时序化的微批式增量计算模型及基于多维划分的并行化方法,实现了可以对典型流式聚类算法进行并行化的分布式系统框架,解决了当前流式聚类分析算法难以并行化、吞吐率低的问题。通过真实的数据集对本发明进行聚类质量、吞吐率和扩展性测试,结果表明基于本发明的系统实现的流式聚类算法可以随着集群规模增长,达到亚线性的吞吐率提升,且保持与标准单机流式聚类算法相近的聚类质量,同时比其他并行化方式(如无序更新方式)实现的流式聚类算法在聚类质量方面提升2.5倍、吞吐率方面提升1.9倍。因此,本发明能够满足大规模高流速数据所需的低延时、高吞吐率的数据聚类分析需求。
-
公开(公告)号:CN116860658A
公开(公告)日:2023-10-10
申请号:CN202310739729.X
申请日:2023-06-21
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及一种面向大数据处理框架的高效半自动垃圾回收方法和系统,通过区分大数据框架中的普通对象与数据对象,本发明消除了垃圾收集过程中数据对象不必要的标记和复制开销。本发明包括:数据对象分析器为大数据框架开发者提供两个注解,分别表示数据对象的创建和释放,Java虚拟机可以根据注解跟踪数据对象的生命周期,并优化数据对象的管理;基于标签的分配器可以有效地区分数据对象和普通对象,并将它们分开存储在堆空间中;基于消息的垃圾收集器可以消除数据对象不必要的标记和复制开销。与同类产品相比,本发明可以有效地减少大数据应用的垃圾收集时间和运行时间,提高Java虚拟机在大数据环境下的内存管理效率。
-
-
-
-
-
-
-
-
-