-
公开(公告)号:CN106980540A
公开(公告)日:2017-07-25
申请号:CN201710134803.X
申请日:2017-03-07
Applicant: 清华大学
IPC: G06F9/50
Abstract: 本发明涉及一种分布式多维离散数据的计算方法,属于计算机数据处理技术领域。该方法首先调用分布式存储系统的服务接口获取元数据并解析得到哈希范围到主机的映射关系,其次对存储系统中所有数据的主键根据主键到哈希码的映射关系和哈希范围到主机的映射关系得到每条数据的主键对应的主机,最终分布式计算系统在分配任务时根据数据的主键所在的主机分配任务。特别地,本文详细描述了多维离散数据在分布式计算系统Spark和分布式存储系统Cassandra间的跨层优化。本发明能够有效地达到任务本地化计算的目的,方法直观有效、便于使用。
-
公开(公告)号:CN105975604A
公开(公告)日:2016-09-28
申请号:CN201610312729.1
申请日:2016-05-12
Applicant: 清华大学
CPC classification number: G06F17/30191 , G06F11/0751 , G06F17/30194
Abstract: 本发明涉及一种分布迭代式数据处理程序异常检测与诊断方法,属于计算机数据管理技术领域。该方法包括训练模型和检测诊断两个阶段;首先基于源代码分析进行日志模板库的提取,其次基于模板库从海量日志数据中分别提取数据分块和任务单元对应的特征向量并进行异常检测模型训练,之后结合领域知识进行异常类型标注,然后利用训练好的模型对未来计算任务进行异常检测,并使用可视化界面给出异常分析,最后将特征单元与代码定位信息关联到一起,通过将异常特征单元映射到程序代码中实现程序的异常检测与诊断。本方法能够从多角度检测和诊断出分布迭代式数据处理程序的主要异常,方法直观易用、交互性好,可显著减少用户进行程序异常检测和诊断的时间。
-
公开(公告)号:CN103986694A
公开(公告)日:2014-08-13
申请号:CN201410165580.X
申请日:2014-04-23
Applicant: 清华大学
Abstract: 本发明涉及一种分布式计算机数据存储系统中多副本一致性的控制方法,属于计算机数据管理技术领域。首先根据设定的分布式系统的副本差异度,计算并设定分布式存储系统的节点的转发队列和执行队列长度,节点接收到读写请求后,首先判断节点的转发或执行队列的长度是否小于设定的阈值,若小于阈值,则将请求插入到相应的队列中,若大于或等于阈值,则将插入操作阻塞,直到队列长度小于阈值后,取消阻塞,将请求插入到相应的队列中。本发明方法通过对队列的长度控制和阻塞操作,能够使分布式存储系统的副本差异准确地维持在一定范围内,方法直观有效、便于使用。
-
公开(公告)号:CN116561221B
公开(公告)日:2024-03-19
申请号:CN202310440709.2
申请日:2023-04-21
Applicant: 清华大学 , 天谋科技(北京)有限公司
Abstract: 本发明提供支持物联网场景的分布式时序数据库副本共识协议的方法,包括:获取时序数据库的写入请求,在时序数据库的共识层执行本地写入请求;在所述共识层执行本地写入请求后向当前节点所在共识组内的其它节点执行写入请求,同步线程流程,形成副本组;基于所述同步线程流程,接收同步的共识写入请求,并更新系统状态;基于同步的共识写入请求,通过异步回调进行最终系统状态更新,完成时序数据库物联网共识建立。本发明解决了现有时序数据库日志写入成本高、缺少对整体资源控制的问题。
-
公开(公告)号:CN116561120B
公开(公告)日:2023-12-26
申请号:CN202310443507.3
申请日:2023-04-21
Applicant: 清华大学 , 天谋科技(北京)有限公司
IPC: G06F16/22 , G06F16/215 , G06F16/245 , G06F16/2457 , G06F16/2458 , G06F9/50
Abstract: 本发明提供一种用于时序数据库的数据文件快速合并方法及系统,包括:从预设的初始文件列表中按字典序分批读取数据储存设备,依次遍历每个数据储存设备;基于每个数据储存设备读取所述数据储存设备下的序列,并将所述序列均分至多个子线程执行合并任务;所述子线程执行合并任务过程中识别具有重叠的数据点进行点优先级读取,重新排序,未重叠的数据点则无需重新排序,生成排序结果,根据所述排序结果将数据点写入目标文件,进行合并操作,完成数据文件的快速合并,解决现有时序数据库文件合并速率低、资源占用多的问题。
-
公开(公告)号:CN116561124A
公开(公告)日:2023-08-08
申请号:CN202310468738.X
申请日:2023-04-26
Applicant: 清华大学 , 天谋科技(北京)有限公司
IPC: G06F16/22 , G06F16/245 , G06F16/2457 , G06F16/2458 , G06F9/50
Abstract: 本发明提供的用于时序数据库的文件合并方法和装置,所述时序数据库中的文件存储于顺序空间或乱序空间中,包括:在所述时序数据库的文件合并线程被触发之后,确定所述时序数据库可执行的文件合并任务;将所述文件合并任务按照优先级降序的方式缓冲至全局队列中;依次执行所述全局队列中的文件合并任务。本发明一次性将所有可执行的文件合并任务都选出后缓存在全局队列中,只要全局队列还有文件合并任务没有被执行,就会一直执行下去,避免了特定时机执行大量文件合并任务而引发前台读写性能波动的问题。
-
公开(公告)号:CN116561120A
公开(公告)日:2023-08-08
申请号:CN202310443507.3
申请日:2023-04-21
Applicant: 清华大学 , 天谋科技(北京)有限公司
IPC: G06F16/22 , G06F16/215 , G06F16/245 , G06F16/2457 , G06F16/2458 , G06F9/50
Abstract: 本发明提供一种用于时序数据库的数据文件快速合并方法及系统,包括:从预设的初始文件列表中按字典序分批读取数据储存设备,依次遍历每个数据储存设备;基于每个数据储存设备读取所述数据储存设备下的序列,并将所述序列均分至多个子线程执行合并任务;所述子线程执行合并任务过程中识别具有重叠的数据点进行点优先级读取,重新排序,未重叠的数据点则无需重新排序,生成排序结果,根据所述排序结果将数据点写入目标文件,进行合并操作,完成数据文件的快速合并,解决现有时序数据库文件合并速率低、资源占用多的问题。
-
公开(公告)号:CN106951490B
公开(公告)日:2020-09-18
申请号:CN201710149222.3
申请日:2017-03-14
Applicant: 清华大学
IPC: G06F16/22 , G06F16/2455 , G06F16/23
Abstract: 本发明涉及一种大规模实时更正数据的存储与缓存读取方法,属于计算机数据管理技术领域。本发明面向工业物联网、气象信息网中出现的一类重要的实时更正数据,数据读取以按时间维度的批量读取为主,数据量大且需要进行实时更正。本发明方法实现数据存储、数据直接读取与数据缓存读取,既能快速返回数据,又支持更正数据的实时更新,并通过缓存提升用户获取速度的时间。本发明克服了目前的分布式系统中广泛存在的大规模实时更正数据存储和读取性能无法达到要求的难题,方法直观有效、便于使用。
-
公开(公告)号:CN106980540B
公开(公告)日:2020-07-10
申请号:CN201710134803.X
申请日:2017-03-07
Applicant: 清华大学
IPC: G06F9/50
Abstract: 本发明涉及一种分布式多维离散数据的计算方法,属于计算机数据处理技术领域。该方法首先调用分布式存储系统的服务接口获取元数据并解析得到哈希范围到主机的映射关系,其次对存储系统中所有数据的主键根据主键到哈希码的映射关系和哈希范围到主机的映射关系得到每条数据的主键对应的主机,最终分布式计算系统在分配任务时根据数据的主键所在的主机分配任务。特别地,本文详细描述了多维离散数据在分布式计算系统Spark和分布式存储系统Cassandra间的跨层优化。本发明能够有效地达到任务本地化计算的目的,方法直观有效、便于使用。
-
公开(公告)号:CN108197321B
公开(公告)日:2018-12-28
申请号:CN201810108421.4
申请日:2018-02-02
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明提供一种文件存储方法及系统,其中方法包括:接收用于存储文件的请求信息,所述请求信息中携带文件以及该文件的所有分类标识,各分类标识分别为所述文件在不同维度下的值,不同的维度之间相互独立;建立所述文件的文件标识,所述文件标识为该文件的所有分类标识,且每个分类标识在文件标识中的排序与该分类标识所在的维度相关;将所述文件与所述文件的文件标识一并存储,以使得用户通过所述文件标识查询到所述文件。本发明支持以近乎相同的效率从各个维度上遍历文件、寻找前序和后序文件,从而高效地对文件进行多维度的管理,同时减少了在传统文件管理方法中大量的人工工作。
-
-
-
-
-
-
-
-
-