一种位置兴趣点聚类方法和相关装置

    公开(公告)号:CN104636354B

    公开(公告)日:2018-02-06

    申请号:CN201310552636.2

    申请日:2013-11-07

    Abstract: 本发明实施例公开了一种位置兴趣点聚类方法和相关装置,其中,一种位置兴趣点聚类方法,包括:获取预定时间段内用户的定位点集合;根据定位点集合生成驻留点集合,其中,驻留点集合中的每个驻留点代表一个热区,上述热区满足如下条件:热区中的任意两个定位点的地理位置距离小于两个定位点的定位精度中的较大定位精度;热区中定位点间的时间间隔的最大值大于预设时间阈值;计算驻留点集合中各个驻留点的可信度;根据驻留点集合中各个驻留点的可信度,从驻留点集合中筛选出可信驻留点;将密度相连的可信驻留点聚类成一个位置兴趣点。本发明提供的技术方案能够有效提高POI的可靠性和参考价值。

    一种数据库原生时间序列聚类方法和装置

    公开(公告)号:CN119862220A

    公开(公告)日:2025-04-22

    申请号:CN202411802229.7

    申请日:2024-12-09

    Applicant: 清华大学

    Abstract: 本发明提供一种数据库原生时间序列聚类方法和装置,方法包括:对存储原生时间序列的数据库各页面进行初始化排序,所述原生时间序列包括相同长度的子序列;获取各页面的近似聚类结果,并通过元数据对近似聚类结果进行存储,每个页面的近似聚类结果包括r个近似聚类中心、各近似聚类中心对应的聚类权重及各聚类内子序列间的平均距离;使用数据库第一页的近似聚类结果作为初始聚合结果,从数据库的第一页开始,将后一页面进行逐页聚合,通过元数据对聚合后页面的近似聚类结果进行更新;当所有页面聚合完成后,对最终的聚合数据进行全局聚类,并基于更新后的近似聚类结果对全局聚类过程进行提速。本发明无需存储完整的矩阵信息,不仅大幅减少了存储开销,还降低了输入和输出操作的复杂性。

    发动机万有特性数据补齐方法、装置、设备及存储介质

    公开(公告)号:CN118171052A

    公开(公告)日:2024-06-11

    申请号:CN202410198952.2

    申请日:2024-02-22

    Applicant: 清华大学

    Abstract: 本发明提供一种发动机万有特性数据补齐方法、装置、设备及存储介质,该方法包括:将发动机的万有特性图作为主数据;主数据包括多个主数据元组;万有特性图包括基准万有特性数据;获取时间序列元组;时间序列元组为传感器采集的发动机万有特性数据;根据主数据,基于预设平滑性约束和预设一致性约束,对时间序列元组进行补齐。本发明同时考虑预设平滑性约束和预设一致性约束,通过引入主数据,保证了时间序列元组补齐的准确性,且能够避免引入错误点。

    基于随机性分位数草图的分位数计算方法及装置

    公开(公告)号:CN118113985A

    公开(公告)日:2024-05-31

    申请号:CN202410188761.8

    申请日:2024-02-20

    Applicant: 清华大学

    Abstract: 本发明提供一种基于随机性分位数草图的分位数计算方法及装置,其中的方法包括:确定待计算分位及其对应的概率性答案区间;在待计算分位落于概率性答案区间的情况下,基于概率性答案区间对应的随机性分位数草图,对概率性答案区间内的数值进行处理,得到待计算分位对应的候选答案区间;根据随机性分位数草图的数据处理量,估计候选答案区间的待计算轮数;确定多个待计算轮数中的最小待计算轮数,并根据最小待计算轮数对应的设定概率,获取待计算分位的目标答案区间。该方法通过引入随机性分位数草图,获取任意设定概率对应的候选答案区间,并评估选取合适的概率,实现了内存受限情况下待计算分位的高精度估计,以支持高效而准确的数据分析。

    多副本数据的时效性判断方法及装置

    公开(公告)号:CN111061595B

    公开(公告)日:2020-10-20

    申请号:CN201911303750.5

    申请日:2019-12-17

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种多副本数据的时效性判断方法及装置,该方法包括:获取当前时刻的k个相互邻近的历史时刻的副本,并计算每两个相邻副本的时间差值和数据差值,以及当前时刻和最近副本的时间差值;将所有时间差值和数据差值,输入至预设的差值模型,输出当前时刻和最近副本的数据差值预测结果;若所述预测结果小于预设阈值,则判断所述最近副本具备时效性;其中,所述差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到。该方法具有客观性,且无需找到分布式机器之间的强关联关系,便可实现数据时效性的有效判断,提高了多副本数据的时效性判断的准确率。

    数据异常检测方法和装置
    46.
    发明授权

    公开(公告)号:CN110287048B

    公开(公告)日:2020-06-02

    申请号:CN201910383583.3

    申请日:2019-05-09

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种数据异常检测方法和装置。所述方法包括:对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。本发明实施例能够对区块链第三方存储介质上数据进行检测,具有较好的准确率和召回率。

    一种基于界标的数据填补方法及装置

    公开(公告)号:CN111177135A

    公开(公告)日:2020-05-19

    申请号:CN201911381294.6

    申请日:2019-12-27

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种基于界标的数据填补方法及装置,该方法包括:获取待填补的原始数据,所述原始数据包括完整数据行和缺失数据行;将所述原始数据中的完整数据行输入至预设的生成对抗网络模型,输出完整数据行的界标;根据完整数据行的界标和完整数据行,对缺失数据行进行填补,得到填补后的缺失数据行;其中,所述生成对抗网络模型,根据多个完整数据行样本和对应的界标标签进行训练后得到。该方法能够得到数据行在值空间的准确界标,综合考虑到了界标数据和无缺失的完整数据,在数据缺少近邻点的情况下,也能进行填补。另外,填补数据部分依据真实的完整数据,能够有效避免神经网络的过拟合问题。

    一种时间戳修复方法及装置

    公开(公告)号:CN111061714A

    公开(公告)日:2020-04-24

    申请号:CN201911275484.X

    申请日:2019-12-12

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种时间戳修复方法及装置,该方法包括:基于密度异常检测算法对数据点进行异常检测,得到异常数据点集合信息;基于任意最优求解方法对异常数据点集合信息进行分析,得到目标时间戳修改信息;根据目标时间戳修改信息对异常数据点集合信息进行时间戳修复,得到修复后的时间戳属性信息。通过密度异常检测算法对数据点进行异常数据点标记,并得到异常数据点集合,针对于异常数据点进行最小时间戳修复,从而实现对于异常数据点的修复,并将修复的异常数据点从异常数据点集合信息中删除,并将其添加到正常数据点中,从而实现对于数据点的分布以及密度的改变,避免了修复后的数据和原始数据之间差距过大而导致的信息丢失的问题。

    一种错误数据容忍的虚警过滤方法和装置

    公开(公告)号:CN110286656A

    公开(公告)日:2019-09-27

    申请号:CN201910374187.4

    申请日:2019-05-07

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种错误数据容忍的虚警过滤方法和装置。该方法包括获取传感器测量得到的设备对应的时序数据,根据所述设备正常运行所对应的状态参数值,确定所述时序数据中包括的疑似时间序列;根据预设的相似度匹配方法,计算每一所述疑似时间序列与历史真警对应的报警时间序列之间的相似度,将对应的相似度高于相似度阈值的疑似时间序列确定为真警,根据预设的异常因子检测算法计算每个对应的相似度不高于所述相似度阈值的疑似时间序列的异常度;根据每个对应的相似度不高于所述相似度阈值的疑似时间序列的异常度,对所述疑似时间序列是否为真警进行判断。本发明实施例能够过滤掉绝大部分错误数据引起的虚警,提高报警的准确率。

    一种多时间序列时间戳对齐的方法和装置

    公开(公告)号:CN110275496A

    公开(公告)日:2019-09-24

    申请号:CN201910397191.2

    申请日:2019-05-14

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种多时间序列时间戳对齐的方法和装置。该方法包括获取在当前的缓存周期内,缓存器中所缓存的主时间序列的数据点和待对齐时间序列的数据点;执行时间戳对齐的步骤,具体包括:确定主时间序列的数据点中的目标数据点;其中,目标数据点为主时间序列在当前的缓存周期内,最早进入缓存器的数据点;根据最近匹配规则,确定待对齐时间序列的数据点中的对齐数据点;其中,最近匹配规则为对齐数据点与目标数据点之间的时间戳距离最小;根据目标数据点和对齐数据点,将缓存器中所缓存的主时间序列的数据点和待对齐时间序列的数据点进行时间戳对齐,获得对齐结果并输出。本发明实施例为多条时序序列进行时间戳对齐提供高效的解决方案。

Patent Agency Ranking