-
公开(公告)号:CN119862431A
公开(公告)日:2025-04-22
申请号:CN202411802330.2
申请日:2024-12-09
Applicant: 清华大学
Abstract: 本发明提供一种时间序列聚类方法和装置,方法包括:获取待聚类时间序列的子序列,将其中m个子序列作为m个聚类中心,组合为所述待聚类时间序列的聚类中心集合;以最大化各所述子序列与对应聚类中心的形状相似度的总和为目标,构建目标函数,其中,一个子序列对应一个聚类中心;基于贪心策略对所述目标函数进行近似求解,并通过预设的有效界限对求解过程进行提速,以确定所述聚类中心集合中的近似最优子序列组合。本发明通过选择子序列作为聚类中心,显著降低时间复杂度;引入贪心策略以次优解快速逼近全局最优解,通过设置有效界限对求解过程进行加速,有效提升长时间序列的聚类效率。
-
公开(公告)号:CN119829554A
公开(公告)日:2025-04-15
申请号:CN202411772803.9
申请日:2024-12-04
Applicant: 清华大学
IPC: G06F16/215 , G06F16/2458 , G06F18/10 , G06F123/02
Abstract: 本发明提供一种基于主数据的时间序列平滑方法、装置、设备及存储介质,涉及数据处理技术领域。该方法包括:获取待修复时间序列数据,以及获取与待修复时间序列数据相关联的主数据,主数据至少包括用于评价待修复时间序列数据的评价数据;基于评价数据,对待修复时间序列数据进行平滑处理,确定满足目标条件的平滑序列数据;基于满足目标条件的平滑序列数据,对待修复时间序列数据进行修复,得到修复后的目标时间序列数据。本发明提供的实施例用以解决现有技术中传统的时间序列恢复技术准确性低且噪声比较大的缺陷,实现可以提高了修复存在缺陷的时间序列数据的准确性,且可降低噪声。
-
公开(公告)号:CN119719097A
公开(公告)日:2025-03-28
申请号:CN202411439872.8
申请日:2024-10-15
Applicant: 清华大学
IPC: G06F16/22 , G06F16/2458 , G06F16/25 , G06F16/907
Abstract: 本发明提供一种时间序列处理方法、装置、电子设备及存储介质,所述方法包括:获取多个时间序列,并提取出所述时间序列的多个元数据特征;在多个所述元数据特征中抽取出与第一预设特征维度对应的第一目标元数据特征;按照所述第一目标元数据特征,将多个所述时间序列进行分组,得到多个时间序列组,其中,在同一所述时间序列组中的时间序列具有相同的第一目标元数据特征;将多个所述时间序列按照不同的所述时间序列组进行分组存储。能够有效提高时间序列的存储效率,从而可以提高后续的索引处理效率。
-
公开(公告)号:CN116561221B
公开(公告)日:2024-03-19
申请号:CN202310440709.2
申请日:2023-04-21
Applicant: 清华大学 , 天谋科技(北京)有限公司
Abstract: 本发明提供支持物联网场景的分布式时序数据库副本共识协议的方法,包括:获取时序数据库的写入请求,在时序数据库的共识层执行本地写入请求;在所述共识层执行本地写入请求后向当前节点所在共识组内的其它节点执行写入请求,同步线程流程,形成副本组;基于所述同步线程流程,接收同步的共识写入请求,并更新系统状态;基于同步的共识写入请求,通过异步回调进行最终系统状态更新,完成时序数据库物联网共识建立。本发明解决了现有时序数据库日志写入成本高、缺少对整体资源控制的问题。
-
公开(公告)号:CN110968835A
公开(公告)日:2020-04-07
申请号:CN201911275488.8
申请日:2019-12-12
Applicant: 清华大学
Abstract: 本发明实施例提供一种近似分位数计算方法及装置,该方法包括:依次读取互联网流式数据集中的各个数据信息,更新等深直方图信息,直至读取所述互联网流式数据集中所有数据,得到目标等深直方图信息;根据分位度信息确定近似分位数在所述目标等深直方图信息中的间隔信息,得到所述互联网流式数据集的近似分位数。通过运用动态等深直方图,在流式计算场景中动态地维护一个近似等深直方图,最终得到目标等深直方图,根据目标值等深直方图的维护结果得到该流式数据集的近似分位数,利用等深直方图的性质,高效地完成针对任意规模的流式数据的近似分位数计算。
-
公开(公告)号:CN116737810B
公开(公告)日:2024-06-25
申请号:CN202310503870.X
申请日:2023-05-06
Applicant: 清华大学 , 天谋科技(北京)有限公司
IPC: G06F16/25 , G06F16/2455
Abstract: 本发明提供一种用于分布式时序数据库的共识服务接口,主要包括创建接口、增删共识组接口和读写接口;其中,创建接口用于接入上层指定的共识算法;增删共识组接口用于创建/删除管理用户数据的共识组,读写接口用于通过共识算法将用户数据写入/读出对应的共识组。本发明共识服务接口对外统一且支持不同共识算法实现,可以为不同一致性需求的应用场景提供更契合的共识方案。
-
公开(公告)号:CN118035505A
公开(公告)日:2024-05-14
申请号:CN202211372127.7
申请日:2022-11-03
Applicant: 华为云计算技术有限公司 , 清华大学
IPC: G06F16/903 , G06F16/9035 , G06N20/00
Abstract: 本申请提供了一种数据采样方法,包括:获取数据集,确定该数据集中属性列的数量和属性值的数据类型,并根据属性列的数量以及属性值的数据类型,从数据集中采样获得样本集。该方法能够获取接近全局数据分布的样本数据,能够提升样本数据的代表性,同时使得样本数据更加适用于数据预览场景,便于用户根据样本数据进行后续的数据处理。
-
公开(公告)号:CN115185932A
公开(公告)日:2022-10-14
申请号:CN202210663208.6
申请日:2022-06-13
Applicant: 清华大学
IPC: G06F16/215 , G06F16/2458
Abstract: 本申请实施例提供一种数据处理方法及装置,其中,方法包括:从终端设备获取待处理时序数据,所述待处理时序数据中包括N个数据点,N为大于1的整数;根据所述待处理时序数据,确定满足预设条件的异常数据点并标记所述异常数据点;所述预设条件用于筛选出下述任一种或多种异常的数据点:时间戳缺失异常、数值为空值异常、相邻数据点的时间间隔不满足采集间隔条件异常、数值分布异常、数值变化速度分布异常或数值变化加速度分布异常。可有效反馈时序数据的可用性,有助于提高时序数据分析或挖掘结果的精确性。
-
公开(公告)号:CN114547000A
公开(公告)日:2022-05-27
申请号:CN202210080749.6
申请日:2022-01-24
Applicant: 清华大学
IPC: G06F16/215 , G07C3/02
Abstract: 本申请实施例提供一种设备运行时长的计算方法、装置、设备及存储介质,先确定第一设备的运行数据序列和第一时间序列,第一时间序列中包括多个采集时刻,运行数据序列中包括在多个采集时刻采集得到的运行数据;根据运行数据序列和第一时间序列,在第一时间序列中确定异常时间,并在第一时间序列中去除异常时间得到第二时间序列;根据第二时间序列确定第一设备的开机时刻和关机时刻;根据开机时刻和关机时刻,确定第一设备的运行时长。提高了确定设备运行时长的准确度。
-
公开(公告)号:CN114493230A
公开(公告)日:2022-05-13
申请号:CN202210068428.4
申请日:2022-01-20
Applicant: 清华大学
Abstract: 本申请提供一种异常业务数据的处理方法、装置和存储介质,其中,方法包括:获取一业务的多个业务数据、各业务数据的周期长度T以及各业务数据的采集时间;基于各业务数据的采集时间在该业务数据的数据周期中所处的时序位置,将时序位置相同的各业务数据归为一个扩展集合;针对每一业务数据yi,将业务数据yi的采集时间ti之前和之后各Wd个采集时间对应的业务数据所属的扩展集合中的各业务数据、业务数据yi所属的扩展集合中的各业务数据以及采集时间ti之前和之后各Ws个采集时间对应的业务数据,组成业务数据yi的扩展邻域集合Ni;基于各业务数据对应的扩展邻域集合,从多个业务数据中确定异常业务数据。
-
-
-
-
-
-
-
-
-