一种面向通用文本格式的解析方法及工具

    公开(公告)号:CN107341135B

    公开(公告)日:2019-11-05

    申请号:CN201710372929.0

    申请日:2017-05-24

    Abstract: 本发明公开了一种面向通用文本格式的解析方法及工具。本方法为:1)对于一待解析数据a,首先将其对应的各种自定义符号导入解析工具中,然后采用指定的文件编码格式读取该待解析数据a;自定义符号包括行分隔符、字段包围符和字段间分隔符;2)解析工具将解析数据a中的自定义符号统一转换文字符串类型;3)解析工具逐个分析所读取的字符,如果该字符及其后面n个字符组成的字符串与行分隔符一致,则根据行分隔符将待解析数据a分割成行数据;4)解析工具分析得到的行数据,根据字段包围符解析出行数据中所有的记录;5)解析工具逐个分析得到的每个记录,根据字段间分隔符解析出每条记录中所有的字段。本发明大大提高了解析效率。

    一种高可靠分布式数据流实时统计方法及系统

    公开(公告)号:CN107193643B

    公开(公告)日:2019-11-05

    申请号:CN201710192864.1

    申请日:2017-03-28

    Abstract: 本发明公开了一种高可靠分布式数据流实时统计方法及系统。本发明包括三项技术,技术一为基于MapReduce编程模型的分布式数据流计算模型,将MapReducer模型的思想扩展到了集群概念上,每一Map或者Reducer计算单元都是分布式集群中的一节点,分别称作Mapper或Reducer,所有的Mapper节点组成Mapper集群,所有的Reducer节点组成Reducer集群;技术二为带序号的并发数据传递机制,技术三为基于状态与信号的分布式任务管理调度机制,其中技术一通过保证分布式系统的可扩展性,解决了吞吐量的问题;技术二和技术三分别解决了数据可靠性和任务可用性的问题,从而保证了可靠的语义。

    一种基于对抗学习和非对称哈希的跨模态检索方法

    公开(公告)号:CN110222140A

    公开(公告)日:2019-09-10

    申请号:CN201910323769.X

    申请日:2019-04-22

    Abstract: 本发明公开了一种基于对抗学习和非对称哈希的跨模态检索方法,其步骤包括:1)选取一跨模态数据集并将其划分为训练集和测试集;对模型进行训练,该模型包括一损失模块、特征提取单元和哈希码学习单元;哈希码学习单元包括哈希码学习网络和一个共享的多标签二值矩阵,损失模块包含特征提取单元的对抗损失,哈希码学习单元的三元边距损失、余弦量化损失和非对称哈希损失;2)利用训练的最优模型,生成跨模态数据集中每一模态数据的二值哈希码;3)对于一给定的查询数据,首先生成二值哈希码,然后计算该查询数据的二值哈希码与该跨模态数据集中与该查询数据模态不同的模态数据的二值哈希码之间计算汉明距离,得到满足条件的跨模态数据实例。

    一种基于日志结构合并树的键值存储方法

    公开(公告)号:CN105468298B

    公开(公告)日:2018-11-13

    申请号:CN201510802190.3

    申请日:2015-11-19

    Abstract: 本发明公开了一种基于日志结构合并树的键值存储方法。本方法为:1)为每一数据存储组件在内存中设置一缓存组件,并对每一缓存组件设置一布隆过滤器;为每个SSTable的每一数据块设置一布隆过滤器;2)对于待合并的数据存储组件Ci,采用布隆过滤器逐级对Ci当前数据块的每一键值对进行跳转判断:若跳跃至Ci+M,则Ci+M及其之前各级组件中没有对应键任何版本的键值对,而Bi+M+1中包含对应版本的键值对;然后将该键值对置于Bi+M中;若跳跃至Bi+N,则Bi+N及其之前各级组件中没有对应键任何版本的键值对,而Ci+N中包含对应版本的键值对;3)对于Bi中待合并的键值对采用相似方法进行处理。

    一种多标签图像的二值向量生成方法及图像语义相似度查询方法

    公开(公告)号:CN108446307A

    公开(公告)日:2018-08-24

    申请号:CN201810111604.1

    申请日:2018-02-05

    CPC classification number: G06F16/951 G06F16/583 G06N3/0454

    Abstract: 本发明公开了一种多标签图像的二值向量生成方法及图像语义相似度查询方法。本发明利用训练数据集对卷积神经网络模型进行训练,直至该卷积神经网络模型的损失值趋于稳定;然后利用训练后的卷积神经网络模型对图像数据库中的图片进行计算,得到每张图片的二值向量并进行存储;利用训练后的卷积神经网络模型计算待查询图片的二值向量,并将其与存储的二值向量进行相似度计算,根据相似度计算结果返回与该待查询图片最相似的若干图片。本发明大大提高了图像的存储效率和查询效率;而且可以根据与查询图片的多级语义相似度对目标图片进行排序。

    一种面向Hadoop的通用文本格式的解析方法及工具

    公开(公告)号:CN108021540A

    公开(公告)日:2018-05-11

    申请号:CN201711095981.2

    申请日:2017-11-09

    CPC classification number: G06F17/2217

    Abstract: 本发明公开了一种面向Hadoop的通用文本格式的解析方法及工具。本方法为:1)对于一待解析的文件,将该文件对应的自定义的行分隔符、字段间分隔符和字段包围符保存到Hadoop系统中;2)Hadoop系统判断该文件是否可分割,若该文件可分割,则将该文件分割为多个块,然后进行步骤3);否则直接进行步骤3);3)Hadoop系统根据所述行分隔符解析出该文件的每行数据,然后根据所述字段包围符解析出每条记录包含的所有行数据;然后根据所述字段间分隔符和字段包围符,解析出每条记录中所有的字段。本发明能够根据自定义的符号解析出分布式环境中输入文件的每条记录所有字段,满足了自定义文件的解析要求。

    一种基于用户行为分析的Hadoop集群作业调度方法及装置

    公开(公告)号:CN104156505B

    公开(公告)日:2017-12-15

    申请号:CN201410350690.3

    申请日:2014-07-22

    Abstract: 本发明涉及一种基于用户行为分析的Hadoop集群作业调度方法及装置,包括以下步骤:收集Hadoop集群产生的日志文件,根据日志文件创建日志数据表,将日志数据表存储于数据库中,并定时将存储于数据库中的日志数据表转存到Hive集群中;根据存储于Hive集群中的日志数据表,得到每个资源组在任一时间区间内提交作业的作业数量及各资源组提交作业的作业类型;根据每个资源组提交作业的作业类型和作业数量,确定各资源组的最小资源占用限额;在资源组提交作业后,根据该资源组对应的最小资源占用限额调度大于等于最小资源占用限额的资源进行处理提交的作业。本发明能够为作业级的调度提供准确和真实的依据。

    一种通用的离线数据接入方法及系统

    公开(公告)号:CN107317865A

    公开(公告)日:2017-11-03

    申请号:CN201710521896.1

    申请日:2017-06-30

    Abstract: 本发明公开了一种通用的离线数据接入方法及系统,基于离线数据接入通用处理模板,来适配多种业务数据接入。具有如下优点:1)数据接入与业务耦合度低,数据接入系统更为通用,音视频数据、图片数据、博客数据、即时通信数据等数据源,都可以采用该方法及系统;2)多节点分布式采集数据,在保证数据正确传输的前提下,提供传输的并行度和传输效率,并实现了负载均衡;3)提供完善的异常处理和报错机制;4)实时监控系统运行状态,系统更为稳定。

    一种基于DAG的面向多计算框架的数据处理方法及系统

    公开(公告)号:CN107273193A

    公开(公告)日:2017-10-20

    申请号:CN201710295064.2

    申请日:2017-04-28

    CPC classification number: G06F9/4881

    Abstract: 本发明公开了一种基于DAG的面向多计算框架的数据处理方法及系统。本方法为1)用户根据目标计算场景选取算子生成该目标计算场景;然后向管理器发送保存场景信息的请求;2)管理器将场景信息保存到场景表中;当收到该目标计算场景的执行请求后,读取该场景表生成包含该目标计算场景信息的作业并发送给调度器;3)调度器根据收到的作业生成对应的算子DAG并验证;对于验证通过的算子生成子作业DAG;然后根据生成的子作业DAG确定每一执行阶段并将其发送给执行器;4)执行器将调度器下发的每一执行阶段的子作业解释为该计算框架下的计算逻辑并触发计算;然后将计算结果提交给调度器。本发明提高了计算框架的计算效率。

    一种高可靠分布式数据流实时统计方法及系统

    公开(公告)号:CN107193643A

    公开(公告)日:2017-09-22

    申请号:CN201710192864.1

    申请日:2017-03-28

    Abstract: 本发明公开了一种高可靠分布式数据流实时统计方法及系统。本发明包括三项技术,技术一为基于MapReduce编程模型的分布式数据流计算模型,将MapReducer模型的思想扩展到了集群概念上,每一Map或者Reducer计算单元都是分布式集群中的一节点,分别称作Mapper或Reducer,所有的Mapper节点组成Mapper集群,所有的Reducer节点组成Reducer集群;技术二为带序号的并发数据传递机制,技术三为基于状态与信号的分布式任务管理调度机制,其中技术一通过保证分布式系统的可扩展性,解决了吞吐量的问题;技术二和技术三分别解决了数据可靠性和任务可用性的问题,从而保证了可靠的语义。

Patent Agency Ranking