-
公开(公告)号:CN107229670A
公开(公告)日:2017-10-03
申请号:CN201710229253.X
申请日:2017-04-10
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了基于Avro的通用数据序列化及反序列化方法。该方法使用统一的数据格式,从而保证不同表的数据均可用这种方式进行存储,降低不同表的数据与系统之间的耦合度;支持数据的打包存储,可以提供数据的批量传输,大大的提高了传输效率,此外,本发明使用Avro技术对数据进行校验,避免生成错误数据。
-
公开(公告)号:CN106909623A
公开(公告)日:2017-06-30
申请号:CN201710043645.7
申请日:2017-01-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了一种支持高效海量数据分析和检索的数据装置及数据存储方法。本装置包括若干文件夹,在每一文件夹中包含多个索引分段;每一索引分段包括一全文索引组件、一数据定位模块和一数据存储模块;全文索引组件用于存储索引分段中的记录的倒排索引信息;数据存储模块,包含多个横向分块,每个横向分块包含多个列分片,每个列分片包含多个用于存储数据记录的数据页;数据定位模块,提供针对数据存储模块的嵌套索引结构,每个横向分块索引存储了横向分块记录起始Id、横向分块位置、各列分片的位置以及列分片索引集合;每个列分片索引记录了列分片中数据页起始位置和数据页索引集合;每个数据页索引记录了数据页所在文件位置和页记录起始Id。
-
公开(公告)号:CN106372105A
公开(公告)日:2017-02-01
申请号:CN201610694772.9
申请日:2016-08-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F16/334 , G06F16/313
Abstract: 本发明涉及一种基于Spark平台的微博数据预处理方法。该方法包括:1)采集微博数据;2)基于Spark平台对采集的微博数据进行去噪处理,并将去噪处理后的微博数据缓存在分布式内存中;3)基于Spark平台对去噪处理后的微博数据进行去重处理,在去重处理中将海明距离小于设定的阈值的文本判定为近似文本。本发明采用Spark平台做为存储及运算的基础,采用内存缓存来提高读写速度,计算节点由Spark平台调度,完成分布式计算,能够实现更准确、高效的去噪、去重功能。
-
公开(公告)号:CN106339459A
公开(公告)日:2017-01-18
申请号:CN201610741134.8
申请日:2016-08-26
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及基于关键词匹配进行中文网页预分类的方法,该方法在制作分类算法所需要的训练集的过程中,给每条训练网页进行人工标注的同时,将网页中表征该网页的关键词也标注出来,生成关键词表;对每一条测试网页,首先根据关键词表提取出该网页中出现的关键词,然后通过与训练集进行关键词匹配计算,将训练集的标签转移给该测试网页;如果该预分类方法未能给出训练网页的分类结果,该测试网页需要进行进一步的分类计算。该方法降低了如SVM、KNN、朴素贝叶斯等计算复杂的分类技术的运行时间,同时也使分类结果的准确率和召回率都得到了提高。
-
公开(公告)号:CN104182522A
公开(公告)日:2014-12-03
申请号:CN201410425094.7
申请日:2014-08-26
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30144 , G06F17/30106 , G06F17/30117 , G06F17/30191 , G06F17/30324 , G06F17/30336 , G06F17/30442 , G06F17/30454
Abstract: 本发明涉及一种基于循环位图模型的辅助索引方法及装置,包括以下步骤:从日志文件生产队列里获取当前的日志文件及其文件编号,为该日志文件中的所有关键字分别建立循环位图;判断文件编号是否在索引范围起始位与索引范围结束位之间;检查文件编号是否在索引范围起始位与有效索引范围终点之间;在日志文件的文件编号处执行置位操作;对有效索引范围终点与索引范围结束位之间做复位操作,在待置位的文件编号处执行置位操作,并将有效索引范围终点赋值为索引范围结束位;等待直到文件生产队列中生成新的日志文件,执行步骤1。本发明不随日志编号增加而扩展内存使用空间,能够在客户端和服务器实现,并针对客户端提出基于流水线的提速模型。
-
公开(公告)号:CN103942308A
公开(公告)日:2014-07-23
申请号:CN201410158112.X
申请日:2014-04-18
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30964
Abstract: 本发明涉及一种大规模社交网络社区的检测方法及装置。方法包括:将输入的大规模社交网络建模成图G=(V,E);通过并行排序算法将图G上的所有节点依节点度的大小关系作降序排列,并计算图G上所有节点的有效度之和DSum;以DSum/P为等分基准参考值,依负载均衡法将图G等分为P个子图;将P个子图通过MapReduce并行计算模型遍历寻找图G上的三角形,基于三角形拓扑结构对图G进行并行化多层粗化,获得最简粗化归约图G’;采用基于遗传学的社区发现算法,对最简粗化归约图G’做初始社区发现,生成社区发现结果;将社区发现结果逐层反粗化还原到图G并伴随作微调优处理,获得图G的社区结构。本发明能够精准而高效地实现大规模社交网络的社区发现和数据分析。
-
公开(公告)号:CN103488775A
公开(公告)日:2014-01-01
申请号:CN201310455174.2
申请日:2013-09-29
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30194
Abstract: 本发明涉及一种用于大数据处理的计算系统及方法,所述系统从下至上依次包括最底层模块、中间层模块和最高层模块,且中间层模块又包括消息传输模块和计算模型模块;最底层模块采用Hadoop分布式文件系统,用于存储数据;消息传输模块用于实现在不同计算节点运行的计算模型模块之间传递消息;在不同计算节点运行的计算模型模块根据所述消息传输模块传递的消息实现协同工作,并各自构建特定类型的计算模型来处理数据;最高层模块用于为计算模型提供编程接口,并以串行的方式组合不同计算模型表达的计算,同时设置不同计算模型之间基于内存流水线方式共享数据。本发明允许在一个系统内采用多种计算模型编写应用程序,能解决更复杂的问题。
-
公开(公告)号:CN103399894A
公开(公告)日:2013-11-20
申请号:CN201310311824.6
申请日:2013-07-23
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于共享存储池的分布式事务处理方法,包括:基于哈希将分布式文件系统目录全路径映射到元数据服务器;从需参与分布式事务的元数据服务器集合中指定一个协调器和多个参与器;元数据服务器评估其需要完成的分布式事务操作,若不能完成向协调器汇报“终止”,否则汇报“提交”并锁定资源;协调器根据参与器汇报结果向共享存储池的全局日志中写入“提交”或“终止”,并通知参与器;参与器执行分布式事务操作或者取消锁定资源;当有协调器或参与器故障时,第一个从共享存储池中检查分布式事务状态的参与器或协调器将分布式事务的状态设为“终止”。本发明解决了分布式文件系统中元数据服务在可扩展环境下的快速事务处理问题。
-
公开(公告)号:CN120032307A
公开(公告)日:2025-05-23
申请号:CN202410736218.7
申请日:2024-06-07
Applicant: 中国科学院信息工程研究所
IPC: G06V20/52 , G06V10/774 , G06V10/764 , G06V10/82 , G06V10/74 , G06N3/0455 , G06N3/09
Abstract: 本发明属于信息技术领域,涉及一种基于文本提示的语义引导的行人重识别方法和系统。该方法包括:将训练图像输入视觉编码器,得到视觉嵌入;利用逆向网络将视觉嵌入映射到文本空间,得到伪令牌,将伪令牌整合到自然语言句子中,得到对于输入图像的语言提示;将语言提示输入文本编码器中,得到文本嵌入;利用视觉嵌入和文本嵌入训练多模态交互模块;将查询图片输入训练完成的多模态交互模块,获得融合视觉与文本信息的特征向量,利用融合视觉与文本信息的特征向量在行人图像数据库中执行相似度检索,得到行人重识别结果。本发明在现有行人重识别数据集上的检索性能得到了显著提升。
-
公开(公告)号:CN113626836B
公开(公告)日:2025-04-29
申请号:CN202110775401.4
申请日:2021-07-09
Applicant: 中国科学院信息工程研究所
IPC: G06F21/60 , G06F21/62 , G06F21/64 , G06F16/31 , G06F40/289
Abstract: 本发明公开了一种基于LSM的对称可搜索加密方法及系统。本方法为:1)客户端创建数据库表,将数据集中的数据信息填入相应的字段中;2)为设定加密索引字段构建加密索引,使用对称加密算法加密所述加密字段中的数据,生成验证集合Xset,该验证集合Xset中存储的信息为所述数据集中各文档对应的组合值,其中根据文档i的文档id及文档i的关键字生成文档i的组合值;将加密索引和加密数据上传至服务器端分配的服务器节点;3)客户端利用对称密钥和查询关键字生成对应的查询发送给服务器端;4)服务器端在加密数据库上执行查询操作并将查询结果返回给客户端;5)客户端接收服务器端返回的查询结果并对其进行解密。
-
-
-
-
-
-
-
-
-