-
公开(公告)号:CN103942308B
公开(公告)日:2017-04-05
申请号:CN201410158112.X
申请日:2014-04-18
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种大规模社交网络社区的检测方法及装置。方法包括:将输入的大规模社交网络建模成图G=(V,E);通过并行排序算法将图G上的所有节点依节点度的大小关系作降序排列,并计算图G上所有节点的有效度之和DSum;以DSum/P为等分基准参考值,依负载均衡法将图G等分为P个子图;将P个子图通过MapReduce并行计算模型遍历寻找图G上的三角形,基于三角形拓扑结构对图G进行并行化多层粗化,获得最简粗化归约图G’;采用基于遗传学的社区发现算法,对最简粗化归约图G’做初始社区发现,生成社区发现结果;将社区发现结果逐层反粗化还原到图G并伴随作微调优处理,获得图G的社区结构。本发明能够精准而高效地实现大规模社交网络的社区发现和数据分析。
-
公开(公告)号:CN106202573A
公开(公告)日:2016-12-07
申请号:CN201610694804.5
申请日:2016-08-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种通用的两个数据库(A,B)联合查询方法,步骤包括:1)从A库的对应表中读出数据生成数据文件,基于该数据文件生成SQL文件,并发送到B库节点;2)通过B库提供的接口建立临时表,并把上述数据文件导入该表中,替换SQL中的表名;3)在B库中执行替换好的SQL,把结果生成数据文件,并发回A库节点;4)在A库中建立临时表,把步骤3)的数据文件导入该表中,并把库名和表名返回给用户。该方法具有通用性,尤其是两数据库网不通的情况,通过把查询结果在其中一个数据库中建表,给用户拿到想要的数据结果。
-
公开(公告)号:CN103488775B
公开(公告)日:2016-08-10
申请号:CN201310455174.2
申请日:2013-09-29
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种用于大数据处理的计算系统及方法,所述系统从下至上依次包括最底层模块、中间层模块和最高层模块,且中间层模块又包括消息传输模块和计算模型模块;最底层模块采用Hadoop分布式文件系统,用于存储数据;消息传输模块用于实现在不同计算节点运行的计算模型模块之间传递消息;在不同计算节点运行的计算模型模块根据所述消息传输模块传递的消息实现协同工作,并各自构建特定类型的计算模型来处理数据;最高层模块用于为计算模型提供编程接口,并以串行的方式组合不同计算模型表达的计算,同时设置不同计算模型之间基于内存流水线方式共享数据。本发明允许在一个系统内采用多种计算模型编写应用程序,能解决更复杂的问题。
-
公开(公告)号:CN105677255A
公开(公告)日:2016-06-15
申请号:CN201610011762.0
申请日:2016-01-08
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F3/061 , G06F3/0655 , G06F3/0689 , G06F11/1461 , G06F11/1464
Abstract: 本发明涉及一种磁盘阵列日志数据旋转分布和同步方法,其步骤包括:1)将磁盘分为若干主磁盘以及对应的若干镜像磁盘,仅将某一个镜像磁盘作为值日日志磁盘,其处于活动状态,其他镜像磁盘处于待机状态;2)将写请求的数据同时写到主磁盘与值日日志磁盘,当值日日志磁盘的剩余可用空间小于预定义的阈值时,将下一个镜像磁盘作为值日日志磁盘,该下一个镜像磁盘从待机状态切换到活动状态。进一步可对上一次值日日志磁盘中与其对应主磁盘中不一致的数据进行同步操作,并将旧的日志空间回收,形成无限循环的逻辑日志空间资源池。本发明以牺牲一小部分能耗为代价,利用分散式延迟同步方法,能够有效提高系统的整体性能。
-
公开(公告)号:CN103309966B
公开(公告)日:2016-02-24
申请号:CN201310219213.9
申请日:2013-06-04
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及基于时间滑动窗口的数据流点连接查询方法,该方法将一定时间内到来的数据流的元组存入缓冲区,进而对缓冲区内的元组批量与其要连接的时间滑动窗口内的元组进行连接,将完成连接的元组批量删除,将未完成连接的元组批量插入到其对应的时间滑动窗口中;从而大大减少了对时间滑动窗口加锁和解锁操作次数;将缓冲区未完成连接的元组插入到其对应的时间滑动窗口时用顺序存储链表存储元组在时间滑动窗口中的位置,顺序存储链表的头结点中存储该缓冲区的开辟时间,避免查找时间滑动窗口中过期数据时对整个时间窗口进行遍历,只需对顺序存储链表头结点进行遍历,即可找到时间滑动窗口中一批过期元组,降低了运算量,提高了效率。
-
公开(公告)号:CN104156400A
公开(公告)日:2014-11-19
申请号:CN201410350005.7
申请日:2014-07-22
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30312 , G06F17/30203 , G06F17/30516
Abstract: 本发明涉及一种海量网络流数据的存储方法及装置,包括以下步骤:采集任一时段内用户提交的数据查询请求,根据数据查询请求得到查询条件;分析查询条件中的时间属性及特征属性,选择超出预设出现频率的阈值的特征属性作为聚簇属性;为待查询数据选定分段的数量和分段的端点,根据划分的分段中待查询数据的存储量选定缓存区的大小,根据聚簇属性、待查询数据中分段的数量、分段的端点和待写入的缓存区的大小生成配置文件;采集机接收网络流数据并转发给文件服务器,文件服务器按照配置文件存储接收到的网络流数据。本发明使查询条件直接映射到相应的空间划分中,直接进行数据的写入或查询,在最大程度上降低加载和存储的开销的同时,保证查询性能。
-
公开(公告)号:CN103136338A
公开(公告)日:2013-06-05
申请号:CN201310042675.8
申请日:2013-02-04
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于目录划分的元数据分布方法,包括以下步骤:获取元数据中的文件名,得到名称文件;对目录进行目录划分,得到多个目录分片文件,并为每个目录分片文件分配一个目录分片号;分别为每个名称文件分配一个目录分片号,将名称文件保存在相应的目录分片文件中;将名称文件存储于当前的目录分片文件中或者将目录分片文件进行分裂,为分裂出的目录分片文件分配目录分片号,将名称文件存储于当前的目录分片文件中或者分裂后的目录分片文件中;根据目录分片号与预定值判断当前的目录分片文件分裂出的目录分片文件的存储位置。本发明提高了系统的并发度,利用了更多并行资源,利用本地性优势,减少对网络带宽的消耗,提升系统的整体性能。
-
-
-
-
-
-