-
公开(公告)号:CN119862431A
公开(公告)日:2025-04-22
申请号:CN202411802330.2
申请日:2024-12-09
Applicant: 清华大学
Abstract: 本发明提供一种时间序列聚类方法和装置,方法包括:获取待聚类时间序列的子序列,将其中m个子序列作为m个聚类中心,组合为所述待聚类时间序列的聚类中心集合;以最大化各所述子序列与对应聚类中心的形状相似度的总和为目标,构建目标函数,其中,一个子序列对应一个聚类中心;基于贪心策略对所述目标函数进行近似求解,并通过预设的有效界限对求解过程进行提速,以确定所述聚类中心集合中的近似最优子序列组合。本发明通过选择子序列作为聚类中心,显著降低时间复杂度;引入贪心策略以次优解快速逼近全局最优解,通过设置有效界限对求解过程进行加速,有效提升长时间序列的聚类效率。
-
公开(公告)号:CN119862220A
公开(公告)日:2025-04-22
申请号:CN202411802229.7
申请日:2024-12-09
Applicant: 清华大学
IPC: G06F16/2458 , G06F18/22 , G06F18/23213 , G06F18/24
Abstract: 本发明提供一种数据库原生时间序列聚类方法和装置,方法包括:对存储原生时间序列的数据库各页面进行初始化排序,所述原生时间序列包括相同长度的子序列;获取各页面的近似聚类结果,并通过元数据对近似聚类结果进行存储,每个页面的近似聚类结果包括r个近似聚类中心、各近似聚类中心对应的聚类权重及各聚类内子序列间的平均距离;使用数据库第一页的近似聚类结果作为初始聚合结果,从数据库的第一页开始,将后一页面进行逐页聚合,通过元数据对聚合后页面的近似聚类结果进行更新;当所有页面聚合完成后,对最终的聚合数据进行全局聚类,并基于更新后的近似聚类结果对全局聚类过程进行提速。本发明无需存储完整的矩阵信息,不仅大幅减少了存储开销,还降低了输入和输出操作的复杂性。
-