-
公开(公告)号:CN118051643B
公开(公告)日:2024-11-05
申请号:CN202410203154.4
申请日:2024-02-23
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/906 , G06F16/907 , G06F16/903 , G06F16/22
Abstract: 本发明公开了一种面向元数据稀疏分布的LSM数据组织方法及装置。本发明使用动态分区组织排序字符串表,具体先对键值对数据的键名进行聚类分析得到键名群组,然后修剪键名群组形成键值对分区,将键值对数据刷写进对应的键值对分区内形成排序字符串表,各键值对分区独立进行合并排序操作,从而有效限制了元数据稀疏分布的排序字符串表的形成,进而大大减少参与合并排序过程的高层级排序字符串表数量,减少高层级排序字符串表反复参与合并排序操作的次数,检索键值对数据时,键值对分区进一步加快定位键值对数据,从而实现系统读写性能的提升。
-
公开(公告)号:CN118069891A
公开(公告)日:2024-05-24
申请号:CN202410261182.1
申请日:2024-03-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/907 , G06F16/903 , G06F16/22
Abstract: 本发明涉及一种基于滑动窗口的LSM数据合并排序方法和装置。本发明提出的方法首先构建面向合并操作中处于低层级的排序字符串表的滑动窗口,依据滑动窗口选定参与合并操作的低层级排序字符串表,同时获取滑动窗口左右最近的两个排序字符串表,并获取其键控范围,然后在处于高层级的排序字符串表中选择与低层级排序字符串表键控范围存在交集的排序字符串表并获取其键控范围,通过预估合并后排序字符串表的键控范围,并与滑动窗口左右最近的两个排序字符串表键控范围作比较,判定是否进行合并排序操作。本发明减少了处于高层级的排序字符串表反复参与低层级排序字符串表合并过程的次数,加快了合并排序速率,提升了系统读写性能。
-
公开(公告)号:CN110264392B
公开(公告)日:2021-05-04
申请号:CN201910371236.9
申请日:2019-05-06
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于多GPU的强连通图检测方法,包括以下步骤:加载图数据并统一存储格式;对图数据进行预处理,包括按照分区个数进行图分割并进行分区保存,对相互链接的处于不同分区的顶点进行复制顶点处理;将预处理好的数据存入多个GPU中,以复制顶点为中心进行广度优先遍历并记录复制边信息;将复制边传回CPU,检测强连通图并标记属于同一个强连通图的顶点;将标记的顶点传回上述多个GPU中,进行强连通图检测。
-
公开(公告)号:CN107220363B
公开(公告)日:2020-09-22
申请号:CN201710422561.4
申请日:2017-06-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/2458 , G06F16/22
Abstract: 本发明涉及一种支持全局复杂检索的跨地域查询方法及系统。该方法包括:1)建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;2)根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;3)解析用户的查询请求,根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;4)全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。本发明能够提高对各数据中心大数据的综合分析能力,在大数据处理领域具有很强的实用性和应用范围,具有广阔的应用前景。
-
公开(公告)号:CN107391555B
公开(公告)日:2020-08-04
申请号:CN201710422553.X
申请日:2017-06-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/27 , G06F16/2455 , G06F16/23
Abstract: 本发明涉及一种面向Spark‑Sql检索的元数据实时更新方法。该方法在Spark Sql进行检索时,会将使用的元数据进行缓存,将被检索的数据块文件元数据以集合的形式缓存于内存中;当获得文件元数据的增量信息时,将首先检查该增量信息所属的表的检索元数据是否存在于缓存之中,若存在,则将增量的文件元数据增加至缓存的该表文件元数据的集合之中,由此完成Spark Sql检索元数据的增量更新。本发明还提出了对Spark Sql检索元数据增加情况的处理方法,可以实时的对检索元数据的增加情况进行处理,提高检索结果的实时性。本发明可以避免对检索元数据进行经常性的全量更新,以减少更新元数据时的时间和资源开销。
-
公开(公告)号:CN118069891B
公开(公告)日:2025-05-13
申请号:CN202410261182.1
申请日:2024-03-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/907 , G06F16/903 , G06F16/22
Abstract: 本发明涉及一种基于滑动窗口的LSM数据合并排序方法和装置。本发明提出的方法首先构建面向合并操作中处于低层级的排序字符串表的滑动窗口,依据滑动窗口选定参与合并操作的低层级排序字符串表,同时获取滑动窗口左右最近的两个排序字符串表,并获取其键控范围,然后在处于高层级的排序字符串表中选择与低层级排序字符串表键控范围存在交集的排序字符串表并获取其键控范围,通过预估合并后排序字符串表的键控范围,并与滑动窗口左右最近的两个排序字符串表键控范围作比较,判定是否进行合并排序操作。本发明减少了处于高层级的排序字符串表反复参与低层级排序字符串表合并过程的次数,加快了合并排序速率,提升了系统读写性能。
-
公开(公告)号:CN119272158A
公开(公告)日:2025-01-07
申请号:CN202411113875.2
申请日:2024-08-14
Applicant: 中国科学院信息工程研究所
IPC: G06F18/243 , G06F18/211 , G06N20/20
Abstract: 本发明公开了一种基于外键聚合和特征选择的数据血缘发现方法及装置,其步骤包括:1)聚合器根据输入的表格数据集、目标列以及表间外键关系,将与目标列所在的表存在关系的表格聚合成一个与目标表行对齐的中间表;2)映射检测模块验证每一候选映射函数能否根据中间表中的列生成目标列,根据验证结果选取一候选映射函数作为最终的映射函数;然后利用映射函数对中间表中与目标列有数据血缘关系的每一列进行回溯,得到目标列的字段级数据血缘;如果各候选映射函数均不能作为最终的映射函数,则执行步骤3);3)从中间表中筛选出对生成目标列贡献最大的列,作为最优特征子集;对最优特征子集中的每一列进行回溯,得到目标列的字段级数据血缘。
-
公开(公告)号:CN118132710A
公开(公告)日:2024-06-04
申请号:CN202410273102.4
申请日:2024-03-11
Applicant: 中国科学院信息工程研究所
IPC: G06F16/332 , G06F40/30 , G06F18/213
Abstract: 本发明提出了一种基于多尺度滑动窗口与动态聚合的对话级情感分析方法,涉及自然语言处理领域。本方法首先对评论对话构造对话树,通过滑动窗口构造多尺度话语窗口;然后利用预训练语言模型编码多尺度话语窗口;再基于对话情感预测模型根据编码的多尺度话语窗口特征表示进行预测,生成多尺度话语窗口预测结果并进行动态聚合;利用多任务学习,构造窗口级、线程级和对话级损失函数,训练优化对话情感预测模型。本方法在无需设计复杂网络的情况下提高在由多轮对话情感分析的预测效果。
-
公开(公告)号:CN116055081A
公开(公告)日:2023-05-02
申请号:CN202210916122.X
申请日:2022-08-01
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种大规模物联网联邦学习隐私保护方法及系统。本发明使用基于区块链的支付激励方法来迫使矿工和机构诚实行事,从而加快联邦学习收敛;此外,考虑到现实网络环境中矿工存在断网现象,导致共识协议中断,影响收敛速度,本发明设计了基于PVSS的鲁棒权益证明共识来解决这一问题。实验表明,本发明的激励机制能够提高预测的准确性,降低参与者不诚实的可能性;且本发明提出的架构可以很好的具有鲁棒性地保护设备隐私。
-
公开(公告)号:CN110287150A
公开(公告)日:2019-09-27
申请号:CN201910405408.X
申请日:2019-05-16
Applicant: 中国科学院信息工程研究所
IPC: G06F16/13 , G06F16/16 , G06F16/182
Abstract: 本发明公开了一种大规模存储系统元数据分布式管理方法与系统。本发明将HDFS存储于NameNode内存中的元数据抽象成二维表的结构,以二维表的形式存储在分布式数据库中;抽象后的各二维表之间通过inode_id相互关联。Namenode成为客户端存取元数据的桥梁,客户端首先连接Namenode,Namenode来操作分布式数据库中的元数据,并将元数据返回给客户端。本发明解决了HDFS的单点故障问题。
-
-
-
-
-
-
-
-
-