支持物联网场景的分布式时序数据库副本共识协议方法

    公开(公告)号:CN116561221A

    公开(公告)日:2023-08-08

    申请号:CN202310440709.2

    申请日:2023-04-21

    Abstract: 本发明提供支持物联网场景的分布式时序数据库副本共识协议方法,包括:获取时序数据库的写入请求,在时序数据库的共识层执行本地写入请求;在所述共识层执行本地写入请求后向当前节点所在共识组内的其它节点执行写入请求,同步线程流程,形成副本组;基于所述同步线程流程,接收同步的共识写入请求,并更新系统状态;基于同步的共识写入请求,通过异步回调进行最终系统状态更新,完成时序数据库物联网共识建立。本发明解决了现有时序数据库日志写入成本高、缺少对整体资源控制的问题。

    一种日志结构合并树的文件合并方法、装置、电子设备及存储介质

    公开(公告)号:CN114020713A

    公开(公告)日:2022-02-08

    申请号:CN202111186455.3

    申请日:2021-10-12

    Applicant: 清华大学

    Abstract: 本公开属于信息存储技术领域,具体而言涉及一种日志结构合并树的文件合并方法、装置、电子设备及存储介质。本方法首先根据用户的近期查询时间范围、近期写入记录和历史合并记录,统计出用户的常用查询时间范围和被查序列、当前数据写入频率和系统的平均合并速度;合并时从时间较近期往时间较远期遍历顺序文件,计算每个可能的文件合并候选集对常用查询的最终收益;选择收益最高的文件合并候选集的最常被查序列进行合并,合并完将结果文件替换被合并的文件。本方法根据用户的写入速率,常用查询区间来计算每次合并对查询的收益,提高了合并操作的灵活性和对用户造成的即时收益。本方法可广泛应用于信息存储技术领域中。

    时间序列数据库的模式转换方法及装置

    公开(公告)号:CN110543467B

    公开(公告)日:2020-06-23

    申请号:CN201910749016.5

    申请日:2019-08-14

    Applicant: 清华大学

    Abstract: 本发明提供一种时间序列数据库的模式转换方法及装置,方法包括:将基于度量和标签数据模式的时间序列转换为二元组;其中,二元组包括时间序列中的度量名称,以及一个或多个标签,每个标签包括标签字段和标签字段的标签值;若预先创建的双层映射表中存在度量名称,则从双层映射表中获取度量名称对应的子映射表;若子映射表中二元组的所有标签字段在路径数据模式下的路径位置均不为空,则创建路径,将各路径位置对应的标签字段的标签值添加到路径中相应的路径位置,在路径的最后位置添加度量名称。本发明实现度量和标签数据模式到路径数据模式的转换,且资源开销小。

    基于向量时钟的分布式键值数据库的副本修复方法与装置

    公开(公告)号:CN109739684B

    公开(公告)日:2020-03-13

    申请号:CN201811384997.X

    申请日:2018-11-20

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种基于向量时钟的分布式键值数据库的副本修复方法与装置,其中所述方法包括:分别为每个节点对应分配一个向量时钟,并设置一个写操作版本变量,向量时钟的各分量表示相应节点作为写操作的协调者节点的写操作,写操作版本变量记录写操作版本号;在每次进行写操作时,更新执行写操作的节点对应的写操作版本号,并基于向量时钟和写操作版本号,记录不同节点间的丢失写操作序列;基于更新的写操作版本号和丢失写操作序列,读取其余副本所在节点写操作的最新数据,以供待修复副本所在节点根据最新数据,修复待修复副本。本发明实施例能够有效降低修复过程的繁琐程度,提高修复效率。

    一种基于双层列表结构的容量扩充方法及系统

    公开(公告)号:CN108256103B

    公开(公告)日:2019-02-05

    申请号:CN201810111712.9

    申请日:2018-02-05

    Applicant: 清华大学

    Abstract: 本发明提供一种基于双层列表结构的容量扩充方法及系统,双层列表结构的第一层列表为第一数组,第一数组中存储至少一个数组标识,第二层列表包括至少一个第二数组,每个第二数组用于存储待存储的数据,每个第二数组仅与一个数组标识对应,所述方法包括:当每个数组标识对应的第二数组中存储的数据数量均达到最大值时,则创建一个新的第一数组,新的第一数组的大小大于当前第一数组的大小,并增加第二数组的数量;将当前第一数组中存储的数组标识拷贝到新的第一数组中,并将当前第一数组替换为新的第一数组,能够有效减少数据在内存中的拷贝次数,有利于提高容量扩充速度;同时能够有效减少内存空间的浪费,一定程度上提高了内存空间的利用率。

    一种迁移学习最优算法选取方法及系统

    公开(公告)号:CN108009593B

    公开(公告)日:2018-12-11

    申请号:CN201711350974.2

    申请日:2017-12-15

    Applicant: 清华大学

    Abstract: 本发明提供一种迁移学习最优算法选取方法,包括:获取源数据集的数据概率分布和目标数据集的数据概率分布;基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合;将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;选取所述误差值最低对应的算法作为所述迁移学习的最优算法。本发明提供的一种迁移学习最优算法选取方法及系统,通过分析源数据集和目标数据集之间的数据重要性权重,从而选取出表现最好的算法作为迁移学习的最优算法。

    一种时序数据列式存储、查询方法及系统

    公开(公告)号:CN107871022B

    公开(公告)日:2018-12-11

    申请号:CN201711384490.X

    申请日:2017-12-20

    Applicant: 清华大学

    Abstract: 本发明提供一种时序数据列式存储、查询方法及系统,所述的存储方法包括:将一列时序数据划分为多个页,每一页存储所述一列时序数据的一部分数据点,所有页中存储的数据点总和为一列时序数据中所有的数据点;为每一页设置页头和页体两部分,针对每一页,将该页中所有数据点的聚合索引信息存储于该页的页头中,以及将该页中所有数据点的数据值信息存储于该页的页体中。通过本发明,能够将一组时序数据的时间戳和具体的数据值存储在一个列中,减少了数据查询时的磁盘I/O;以及将数据按照页进行划分,并分别建立聚合索引信息,加快了数据的查询速度。

    一种机器学习算法自动选择方法和系统

    公开(公告)号:CN108009643B

    公开(公告)日:2018-10-30

    申请号:CN201711354616.9

    申请日:2017-12-15

    Applicant: 清华大学

    Abstract: 本发明提供一种机器学习算法自动选择方法和系统,选择方法包括:确定待选算法集合;基于多个历史参数以及多个预设系数,确定待选算法集合中的每一待选算法的训练测试次序;按照训练测试次序,基于确定的训练集,依次对待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的多个综合评分参数;基于多个综合评分参数以及多个预设系数,获取每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。本发明提供的一种机器学习算法自动选择方法和系统,具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。

    一种基于频域特征的时序数据存储的方法和装置

    公开(公告)号:CN107944029B

    公开(公告)日:2018-10-30

    申请号:CN201711322647.6

    申请日:2017-12-12

    Applicant: 清华大学

    Abstract: 本发明提供一种基于频域特征的时序数据存储的方法和装置,包括将待存储的时序数据划分成若干数据点集合,每一数据点集合包括多个连续的数据点,每一数据点包括一个时间戳和一个数据值;对于任一数据点集合,根据任一数据点集合中每一数据点的数据值和时间戳获取任一数据点集合对应的频域特征值;依次存储每一数据点集合对应的频域特征值;从而将时序数据转换成频域特征进行存储,实现了一种利用时序数据的频域特征进行储存的方式。

    文件存储方法及系统
    30.
    发明公开

    公开(公告)号:CN108197321A

    公开(公告)日:2018-06-22

    申请号:CN201810108421.4

    申请日:2018-02-02

    Applicant: 清华大学

    CPC classification number: G06F17/30073 G06F17/30091 G06F17/30106

    Abstract: 本发明提供一种文件存储方法及系统,其中方法包括:接收用于存储文件的请求信息,所述请求信息中携带文件以及该文件的所有分类标识,各分类标识分别为所述文件在不同维度下的值,不同的维度之间相互独立;建立所述文件的文件标识,所述文件标识为该文件的所有分类标识,且每个分类标识在文件标识中的排序与该分类标识所在的维度相关;将所述文件与所述文件的文件标识一并存储,以使得用户通过所述文件标识查询到所述文件。本发明支持以近乎相同的效率从各个维度上遍历文件、寻找前序和后序文件,从而高效地对文件进行多维度的管理,同时减少了在传统文件管理方法中大量的人工工作。

Patent Agency Ranking