一种分布式多维离散数据的计算方法

    公开(公告)号:CN106980540A

    公开(公告)日:2017-07-25

    申请号:CN201710134803.X

    申请日:2017-03-07

    Applicant: 清华大学

    Abstract: 本发明涉及一种分布式多维离散数据的计算方法,属于计算机数据处理技术领域。该方法首先调用分布式存储系统的服务接口获取元数据并解析得到哈希范围到主机的映射关系,其次对存储系统中所有数据的主键根据主键到哈希码的映射关系和哈希范围到主机的映射关系得到每条数据的主键对应的主机,最终分布式计算系统在分配任务时根据数据的主键所在的主机分配任务。特别地,本文详细描述了多维离散数据在分布式计算系统Spark和分布式存储系统Cassandra间的跨层优化。本发明能够有效地达到任务本地化计算的目的,方法直观有效、便于使用。

    一种分布迭代式数据处理程序异常检测与诊断方法

    公开(公告)号:CN105975604A

    公开(公告)日:2016-09-28

    申请号:CN201610312729.1

    申请日:2016-05-12

    Applicant: 清华大学

    CPC classification number: G06F17/30191 G06F11/0751 G06F17/30194

    Abstract: 本发明涉及一种分布迭代式数据处理程序异常检测与诊断方法,属于计算机数据管理技术领域。该方法包括训练模型和检测诊断两个阶段;首先基于源代码分析进行日志模板库的提取,其次基于模板库从海量日志数据中分别提取数据分块和任务单元对应的特征向量并进行异常检测模型训练,之后结合领域知识进行异常类型标注,然后利用训练好的模型对未来计算任务进行异常检测,并使用可视化界面给出异常分析,最后将特征单元与代码定位信息关联到一起,通过将异常特征单元映射到程序代码中实现程序的异常检测与诊断。本方法能够从多角度检测和诊断出分布迭代式数据处理程序的主要异常,方法直观易用、交互性好,可显著减少用户进行程序异常检测和诊断的时间。

    分布式计算机数据存储系统中多副本一致性的控制方法

    公开(公告)号:CN103986694A

    公开(公告)日:2014-08-13

    申请号:CN201410165580.X

    申请日:2014-04-23

    Applicant: 清华大学

    Inventor: 王建民 黄向东

    Abstract: 本发明涉及一种分布式计算机数据存储系统中多副本一致性的控制方法,属于计算机数据管理技术领域。首先根据设定的分布式系统的副本差异度,计算并设定分布式存储系统的节点的转发队列和执行队列长度,节点接收到读写请求后,首先判断节点的转发或执行队列的长度是否小于设定的阈值,若小于阈值,则将请求插入到相应的队列中,若大于或等于阈值,则将插入操作阻塞,直到队列长度小于阈值后,取消阻塞,将请求插入到相应的队列中。本发明方法通过对队列的长度控制和阻塞操作,能够使分布式存储系统的副本差异准确地维持在一定范围内,方法直观有效、便于使用。

    一种实时更正数据的存储与缓存读取方法

    公开(公告)号:CN106951490B

    公开(公告)日:2020-09-18

    申请号:CN201710149222.3

    申请日:2017-03-14

    Applicant: 清华大学

    Abstract: 本发明涉及一种大规模实时更正数据的存储与缓存读取方法,属于计算机数据管理技术领域。本发明面向工业物联网、气象信息网中出现的一类重要的实时更正数据,数据读取以按时间维度的批量读取为主,数据量大且需要进行实时更正。本发明方法实现数据存储、数据直接读取与数据缓存读取,既能快速返回数据,又支持更正数据的实时更新,并通过缓存提升用户获取速度的时间。本发明克服了目前的分布式系统中广泛存在的大规模实时更正数据存储和读取性能无法达到要求的难题,方法直观有效、便于使用。

    一种分布式多维离散数据的计算方法

    公开(公告)号:CN106980540B

    公开(公告)日:2020-07-10

    申请号:CN201710134803.X

    申请日:2017-03-07

    Applicant: 清华大学

    Abstract: 本发明涉及一种分布式多维离散数据的计算方法,属于计算机数据处理技术领域。该方法首先调用分布式存储系统的服务接口获取元数据并解析得到哈希范围到主机的映射关系,其次对存储系统中所有数据的主键根据主键到哈希码的映射关系和哈希范围到主机的映射关系得到每条数据的主键对应的主机,最终分布式计算系统在分配任务时根据数据的主键所在的主机分配任务。特别地,本文详细描述了多维离散数据在分布式计算系统Spark和分布式存储系统Cassandra间的跨层优化。本发明能够有效地达到任务本地化计算的目的,方法直观有效、便于使用。

    文件存储方法及系统
    70.
    发明授权

    公开(公告)号:CN108197321B

    公开(公告)日:2018-12-28

    申请号:CN201810108421.4

    申请日:2018-02-02

    Applicant: 清华大学

    Abstract: 本发明提供一种文件存储方法及系统,其中方法包括:接收用于存储文件的请求信息,所述请求信息中携带文件以及该文件的所有分类标识,各分类标识分别为所述文件在不同维度下的值,不同的维度之间相互独立;建立所述文件的文件标识,所述文件标识为该文件的所有分类标识,且每个分类标识在文件标识中的排序与该分类标识所在的维度相关;将所述文件与所述文件的文件标识一并存储,以使得用户通过所述文件标识查询到所述文件。本发明支持以近乎相同的效率从各个维度上遍历文件、寻找前序和后序文件,从而高效地对文件进行多维度的管理,同时减少了在传统文件管理方法中大量的人工工作。

Patent Agency Ranking