-
公开(公告)号:CN112597076B
公开(公告)日:2022-10-14
申请号:CN202011525754.0
申请日:2020-12-22
Applicant: 中国科学院软件研究所
IPC: G06F12/121 , G06F12/06
Abstract: 本发明公开了一种面向Spark的基于数据感知的缓存替换方法,属于软件技术领域,通过分析Spark框架的应用数据依赖关系和历史执行信息,获取数据块的被依赖次数、占用内存空间大小、计算用时和被引用次数,基于这些因素建立权重模型,计算出数据块的权重;将数据块权重值从小到大排序,选择权重值较小数据且与待缓存的数据块不属于同一个RDD的数据块进行缓存替换。本发明针对现有应用负载特征多样性,应用对内存资源需求的持续变化性,动态感知用户负载特征,并根据历史运行信息,计算得到的权重值,衡量缓存替换最合适的数据,并实时结合当前内存资源情况作出替换决定,实现Spark框架缓存管理机制的优化。
-
公开(公告)号:CN116827953A
公开(公告)日:2023-09-29
申请号:CN202310787374.1
申请日:2023-06-29
Applicant: 中国科学院软件研究所
IPC: H04L67/1014 , H04L67/1012 , G06F9/50
Abstract: 本发明提供了一种面向大数据流式处理系统的动态负载均衡方法及装置,该方法包括:收集计算节点上消息主键分布情况及每一消息主键对应的数据量;根据所述消息主键分布情况及每一所述消息主键对应的数据量,分析流式数据的分布情况;基于所述流式数据的分布情况选择负载分配策略,以进行未分配负载的分配。本发明可以更好地均衡计算节点负载。
-
公开(公告)号:CN116756119A
公开(公告)日:2023-09-15
申请号:CN202310733756.6
申请日:2023-06-20
Applicant: 中国科学院软件研究所
Abstract: 本发明提供了一种面向动态负载的数据库在线参数调优方法及装置,该方法包括:计算数据库当前的工作负载特征向量,并匹配工作负载特征向量所属的分类,以得到对应的参数推荐模型;收集数据库的参数配置Pi‑1和数据库性能Qi‑1;基于对应的参数推荐模型、参数配置Pi‑1和数据库性能Qi‑1,推测工作负载特征向量对应的参数配置Pi;将参数配置Pi应用到数据库;在满足调优预算上限的情况下,基于数据库性能Qi,在得到的所有参数配置Pi中选择一参数配置输出。本发明可以在线修改数据库的动态系统参数值,进而提高数据库在动态负载下的实时运行性能。
-
公开(公告)号:CN112765409B
公开(公告)日:2022-07-29
申请号:CN202011622834.8
申请日:2020-12-31
Applicant: 中国科学院软件研究所
IPC: G06F16/901 , G06F16/903
Abstract: 本发明涉及一种基于模块度的社区发现方法,在分布式计算引擎之上,改造传统基于模块度的社区发现算法,提供将基于模块度的社区发现算法进行分布式化计算的方法,并在分布式实现的基础上,提出预分区和状态信息优化存储策略两种优化方案,降低了计算开销和消息传递开销,整体提高了大规模图上模块度社区发现算法的计算效率,达到高效分布式实现的目标。
-
公开(公告)号:CN112633388B
公开(公告)日:2022-07-29
申请号:CN202011578216.8
申请日:2020-12-28
Applicant: 中国科学院软件研究所
IPC: G06V10/762 , G06K9/62 , G06Q50/00
Abstract: 本发明公开了一种面向社交网络的分布式用户聚类方法,其步骤包括:1)根据社交网络图数据生成用户关系图;2)基于节点切分的方式对该用户关系图进行划分,并分发到不同的机器上;3)根据边所连两节点的邻居节点列表,计算出两节点之间的相似度;4)根据边上的相似度是否大于设定的阈值e确定边的属性值并发送给该边所连的两个节点,每个节点将收到的属性值相加得到该节点的属性值,如果节点的属性值大于阈值μ,则将该节点为核心节点;5)各核心节点所在机器向相邻节点发送自身节点的标签,用于更新节点自身的标签;当没有任何核心节点修改自身的标签时,将拥有相同标签的节点划分到一个簇中。
-
公开(公告)号:CN112765409A
公开(公告)日:2021-05-07
申请号:CN202011622834.8
申请日:2020-12-31
Applicant: 中国科学院软件研究所
IPC: G06F16/901 , G06F16/903
Abstract: 本发明涉及一种基于模块度的社区发现方法,在分布式计算引擎之上,改造传统基于模块度的社区发现算法,提供将基于模块度的社区发现算法进行分布式化计算的方法,并在分布式实现的基础上,提出预分区和状态信息优化存储策略两种优化方案,降低了计算开销和消息传递开销,整体提高了大规模图上模块度社区发现算法的计算效率,达到高效分布式实现的目标。
-
公开(公告)号:CN112579259A
公开(公告)日:2021-03-30
申请号:CN202011472196.6
申请日:2020-12-14
Applicant: 中国科学院软件研究所
IPC: G06F9/455
Abstract: 本发明涉及一种面向大数据处理框架的GC自适应调节方法及装置,通过分别在大数据框架和执行器JVM当中,采集当前的大数据操作信息和内存状态信息,预测大数据应用每一个处理阶段的内存使用需求;同时根据预测结果,按照一定的逻辑规则对执行器JVM的GC参数进行自适应调整,并实现了在运行时动态修改GC参数的接口。本发明能够适应大数据应用不断变化的内存使用特点,降低执行器JVM的GC触发频率和全局暂停时间,提高JVM在大数据环境下的内存管理效率。
-
公开(公告)号:CN108683560A
公开(公告)日:2018-10-19
申请号:CN201810461515.X
申请日:2018-05-15
Applicant: 中国科学院软件研究所
IPC: H04L12/26 , H04L12/807 , H04L12/803
CPC classification number: H04L43/08 , H04L43/045 , H04L43/0852 , H04L43/0888 , H04L43/0894 , H04L47/125 , H04L47/27
Abstract: 本发明涉及一种大数据流处理框架的性能基准测试系统及方法,系统由流式负载生成器、流式场景与应用构造器、性能数据采集工具和性能数据分析工具四个部分组成。本发明通过选取符合流式处理模式计算特征的应用,生成符合流式处理模式数据特征的负载,测试大数据流处理框架在典型场景与应用下的性能表现,采集运行时的反压、吞吐量、延迟、系统资源、节点数据等性能指标,最后通过分析和统计采集数据来诊断流处理框架的瓶颈所在。
-
公开(公告)号:CN107122443A
公开(公告)日:2017-09-01
申请号:CN201710269870.2
申请日:2017-04-24
Applicant: 中国科学院软件研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于Spark SQL的分布式全文检索系统及方法,包括SQL翻译层、数据源管理层、并行计算层、分布式存储层,在SQL翻译层中提出了基于SQL的全文检索文法以及全文检索SQL语句在SQL翻译层各模块间的翻译过程;在数据源管理模块设计了全文检索过程的并行化方法;检索优化模块中,设计了两种索引存储模型和相应的查询时原表数据还原策略,其中基于索引指定列存储模型设计了一种用于在查询时还原原表数据、复杂度为O(n)的分区对齐连接算法。在两种存储模型下,索引构建时间缩短为传统数据库的0.6%/0.5%,查询时间缩短为传统数据库的1%/10%,索引存储量减少为传统数据库的55.0%。增强了Spark SQL数据分析功能,能够满足传统业务迁移和现有业务对海量数据进行全文检索的需求。
-
-
-
-
-
-
-
-