-
公开(公告)号:CN118585509A
公开(公告)日:2024-09-03
申请号:CN202410753997.1
申请日:2024-06-12
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/21 , G06F16/2455 , G06F16/28 , G06N5/022 , G06N5/04 , G06Q50/18 , G06F18/241
Abstract: 本发明涉及出境数据数字化处理技术领域,公开了基于结构化规则的出境法律法规知识库构建方法及系统,首先根据数据出境合规的法律法规原文条款判定表述逻辑,对条文进行拆解;对拆分后的条文,进行标准化规则梳理,在条文中提取四要素,包括数据处理者、数据出境行为、违规标志、判定结果;再对条款自然语言描述的标准化规则进行整理归纳,对标准化规则的四要素进一步进行细分,转变成计算机理解并自动判断的数字化规则描述;基于数字化规则描述,构建数据出境合规逻辑推理模型;获取数据处理者实际数据,基于逻辑判断模型输出结果,并对判定结果进行汇总整理并输出。本发明通过对数据出境相关的法律法规条目进行标准化、数字化,构建统一的数字化描述准则,形成数据出境合规规则知识库,辅助计算机完成自动审核工作,降低人工参与程度,提高合规效率和准确度。
-
公开(公告)号:CN109885642B
公开(公告)日:2021-11-02
申请号:CN201910119254.8
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。
-
公开(公告)号:CN107066546B
公开(公告)日:2021-03-09
申请号:CN201710165501.9
申请日:2017-03-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458
Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。
-
公开(公告)号:CN106649462B
公开(公告)日:2019-11-08
申请号:CN201610849788.2
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种针对海量数据全文检索场景的实现方法,属于海量数据全文检索领域。本发明将Lucene引入检索引擎,对集群中已经存在的数据文件建立Lucene索引文件。在每个存储Lucene索引文件的节点上,设置有一个守护进程对该节点的Lucene索引文件进行维护。本发明优化协调器对fragment的调度机制,对每个执行节点进行计数判断,调整每个fragment的执行位置,以均衡节点资源。本发明还优化全文读取引擎机制,优先采用Lucene进行检索,当出现问题时调用RCFile检索,以保证检索的持续性和正确性。本发明提高了检索性能,可更加合理地利用集群的资源。
-
公开(公告)号:CN111754383A
公开(公告)日:2020-10-09
申请号:CN202010403115.0
申请日:2020-05-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于GPU加速的优化线程调度与分区的强连通图检测方法,为使用异构系统进行强连通图检测的方法,通过将每个warp分成多个虚拟warp并分配多个顶点任务、使用着色分区替换传统的WCC分区等方法平衡了线程分配、增加了每次迭代产生的强连通图数目,从而达到提升算法运行效率的目的。
-
公开(公告)号:CN105989061B
公开(公告)日:2019-11-26
申请号:CN201510066798.4
申请日:2015-02-09
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901
Abstract: 本发明涉及一种滑动窗口下多维数据重复检测快速索引方法。该方法采用压缩计数型布隆过滤器矩阵数组来维护滑动窗口内的数据项,在滑动窗口内维护多个子窗口,队首子窗口以滑动方式接收新元素,队尾子窗口以滑动方式淘汰老元素;每个独立子窗口由一个计数型布隆过滤器矩阵组成,计数型布隆过滤器矩阵具备面向多维数据的维度删减能力,并且其内部维护计数器单元。通过对所有计数型布隆过滤器矩阵均采用相同的设计容量并共享同一组k个哈希函数,能够有效提升重复元素检测效率;通过在计数器单元中维护系统基础时钟,能够有效支持滑动窗口的元素隐式删除;通过矩阵方式维护多维数据,有效降低多维数据的组合误差率,降低整体误判率。
-
公开(公告)号:CN110378144B
公开(公告)日:2021-09-07
申请号:CN201910481273.5
申请日:2019-06-04
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种数据即服务模式下支持范围查询的隐私保护方法和系统。在数据即服务的管理模式中,数据服务商的安全策略可能并不完备,数据所有者对其并不完全信任。在这样的环境下,设计一个能够完备的、能够保证数据隐私安全同时数据查询相对高效的机制是很有必要的。已有的数据即服务的管理模式中存在时间效率低和隐私信息攻击的风险。本发明提出一个完备、隐私安全并且支持范围查询和数据验证的方案,其核心是通过对数据分区,在同一分区内的数据采取哈希函数部分和的方式获得索引;为了能够在范围查询时避免假命中数据和数据验证,引入了查询精度和验证矩阵。通过实验验证,本发明具有很好的时间效率,同时能够很好地减少数据信息泄露。
-
公开(公告)号:CN107220363B
公开(公告)日:2020-09-22
申请号:CN201710422561.4
申请日:2017-06-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/2458 , G06F16/22
Abstract: 本发明涉及一种支持全局复杂检索的跨地域查询方法及系统。该方法包括:1)建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;2)根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;3)解析用户的查询请求,根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;4)全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。本发明能够提高对各数据中心大数据的综合分析能力,在大数据处理领域具有很强的实用性和应用范围,具有广阔的应用前景。
-
公开(公告)号:CN107391555B
公开(公告)日:2020-08-04
申请号:CN201710422553.X
申请日:2017-06-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/27 , G06F16/2455 , G06F16/23
Abstract: 本发明涉及一种面向Spark‑Sql检索的元数据实时更新方法。该方法在Spark Sql进行检索时,会将使用的元数据进行缓存,将被检索的数据块文件元数据以集合的形式缓存于内存中;当获得文件元数据的增量信息时,将首先检查该增量信息所属的表的检索元数据是否存在于缓存之中,若存在,则将增量的文件元数据增加至缓存的该表文件元数据的集合之中,由此完成Spark Sql检索元数据的增量更新。本发明还提出了对Spark Sql检索元数据增加情况的处理方法,可以实时的对检索元数据的增加情况进行处理,提高检索结果的实时性。本发明可以避免对检索元数据进行经常性的全量更新,以减少更新元数据时的时间和资源开销。
-
公开(公告)号:CN110378144A
公开(公告)日:2019-10-25
申请号:CN201910481273.5
申请日:2019-06-04
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种数据即服务模式下支持范围查询的隐私保护方法和系统。在数据即服务的管理模式中,数据服务商的安全策略可能并不完备,数据所有者对其并不完全信任。在这样的环境下,设计一个能够完备的、能够保证数据隐私安全同时数据查询相对高效的机制是很有必要的。已有的数据即服务的管理模式中存在时间效率低和隐私信息攻击的风险。本发明提出一个完备、隐私安全并且支持范围查询和数据验证的方案,其核心是通过对数据分区,在同一分区内的数据采取哈希函数部分和的方式获得索引;为了能够在范围查询时避免假命中数据和数据验证,引入了查询精度和验证矩阵。通过实验验证,本发明具有很好的时间效率,同时能够很好地减少数据信息泄露。
-
-
-
-
-
-
-
-
-