-
公开(公告)号:CN107918660B
公开(公告)日:2018-12-11
申请号:CN201711165914.3
申请日:2017-11-21
Applicant: 清华大学
Abstract: 本发明实施例提供了一种基于多阶差分网络的高频时序数据处理方法,包括:S1,获取高频时序数据,并将所述高频时序数据输入训练好的多阶差分网络模型;S2,若判断获知所述高频时序数据超过预设长度,则利用所述采样模块对所述高频时序数据进行下采样,并将下采样得到的时序数据与所述高频时序数据进行组合形成第一数据集;S3,利用所述差分模块对所述第一数据集进行多次差分,并将多次差分得到的多个数据集与所述第一数据集组合形成第二数据集;S4,利用所述递归层和所述全连接层对所述第二数据集进行处理,以得到所述高频时序数据的分类结果向量。实现了多阶差分网络模型对高频时序数据的自动化处理,且结果准确。
-
公开(公告)号:CN107977456B
公开(公告)日:2018-10-30
申请号:CN201711353319.2
申请日:2017-12-15
Applicant: 清华大学
Abstract: 本发明实施例提供了一种基于多任务深度网络的多源大数据分析方法及系统,所述方法包括:将待分析多源大数据输入训练好的多任务深度网络,得到所述待分析多源大数据的多个任务的分析结果;其中,所述训练好的多任务深度网络分类层的前一层具有与所述多个任务一一对应的多个网络参数,用于根据所述分类层前一层的输入特征得到所述分类层中每个分类器的输入特征。在训练得到用于多源大数据分析的多任务深度网络的过程中,将分类层的前一层设为不共享网络参数的特定任务相关层,更好的挖掘了不同任务之间的联系;利用张量正态分布作为先验概率来挖掘特定任务相关层网络参数之间的关系;使得训练后的多任务深度网络对多源大数据的分析更加快速准确。
-
公开(公告)号:CN107908593B
公开(公告)日:2018-10-30
申请号:CN201711319350.4
申请日:2017-12-12
Applicant: 清华大学
Abstract: 本发明提供一种基于频域特征的子序列检索方法和系统,检索方法包括:将滑动窗口在数据库的所有序列上依次滑动,滑动窗口任一次滑动获取一个与滑动窗口长度相等的子序列;对每一子序列进行离散傅里叶变换,获取每一子序列对应的频域特征序列,所有子序列对应的频域特征序列构成频域特征序列集合;遍历频域特征序列集合,基于降维规则对频域特征序列集合进行降维,获取基于频域特征的降维表示的序列;通过空间索引方法对降维表示的序列进行检索。本发明能够有效减少虚假匹配结果的数量,使得降维表示后的序列之间的距离更加接近原序列之间的实际距离,进而减小子序列近似查询的响应时间。本发明具备应对大数据的能力,且具有更好的实用价值。
-
公开(公告)号:CN108053030A
公开(公告)日:2018-05-18
申请号:CN201711348776.2
申请日:2017-12-15
Applicant: 清华大学
IPC: G06N3/08
CPC classification number: G06N3/084
Abstract: 本发明提供一种开放领域的迁移学习方法及系统,所述方法包括:将源领域样本集和目标领域样本集输入目标神经网络,以对目标领域样本集进行迁移学习,所述目标领域样本集对应的标签空间是所述源领域样本集对应的标签空间的子空间;其中,所述目标神经网络用于从所述源领域样本集中筛选出标签同时属于目标领域和源领域的第一样本集以及标签只属于源领域的第二样本集,并促进所述第一样本集产生的正迁移并抑制所述第二样本集产生的负迁移。本发明提供的一种开放领域的迁移学习方法及系统,有效解决了开放领域下的迁移学习问题。
-
公开(公告)号:CN108009632A
公开(公告)日:2018-05-08
申请号:CN201711342473.X
申请日:2017-12-14
Applicant: 清华大学
CPC classification number: G06N3/0454 , G06N3/084
Abstract: 本发明提供一种对抗式时空大数据预测方法,包括:将时空序列输入训练好的对抗式卷积递归神经网络模型,获取预测结果;所述对抗式卷积递归神经网络模型由预测器和判别器构成,所述判别器为卷积神经网络;所述预测器用于根据输入所述预测器的时空序列输出预测时空序列,所述预测器用于根据输入所述判别器的时空序列输出真实性概率向量;所述模型应用所述真实性概率向量构建的损失函数进行训练。本发明提供的方法,基于对抗式卷积递归神经网络模型,应用判别器输出的真实性概率向量构建损失函数,更好的保留了预测值和真实值在结构层面和语义层面的差距,使得时空数据的预测纹理更加清晰、结构更加完整、语义更加准确。
-
公开(公告)号:CN107992938A
公开(公告)日:2018-05-04
申请号:CN201711192977.8
申请日:2017-11-24
Applicant: 清华大学
CPC classification number: G06N3/0454 , G06Q10/04
Abstract: 本发明提供一种基于正反卷积神经网络的时空大数据预测方法和系统,方法包括:将时空大数据输入训练好的正反卷积神经网络模型,获取预测结果;训练好的正反卷积神经网络模型通过如下步骤获取:根据任一时刻卷积记忆和任一时刻卷积输出门获取任一时刻卷积输出,构建任一时刻卷积长短时间记忆单元;根据任一时刻反卷积记忆和任一时刻反卷积输出门获取任一时刻反卷积输出,构建任一时刻反卷积长短时间记忆单元;搭建正反卷积神经网络模型;将由观测值组成的张量序列数据输入正反卷积神经网络模型进行训练,获得训练好的正反卷积神经网络模型。本发明通过分析和学习过去观测到的数据,对时空数据的隐含特征进行学习,预测未来的时空大数据序列。
-
公开(公告)号:CN106021495B
公开(公告)日:2017-10-31
申请号:CN201610341201.7
申请日:2016-05-20
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明涉及一种分布式迭代计算系统中的任务参数优化方法,属于分布式数据处理技术领域。本方法首先采集分布式迭代计算系统中历史任务的运行数据,构建历史数据库;进行任务参数优化时,根据约束条件对历史数据库中显著不相关的运行数据进行一次过滤;然后对待优化任务对应的历史数据库中的运行数据与一次过滤后的运行数据进行有向无环图的相似度计算,并对相似度低于一定阈值的运行数据进行二次过滤;最后将两次过滤后的结果经过计算排序,并将排序后的运行数据所对应的任务参数作为任务参数优化结果。本发明能自动进行分布式迭代计算系统的任务参数优化,是一种即插即用型自适应调优方法,能够显著降低用户使用分布式迭代计算系统的门槛。
-
公开(公告)号:CN103986694B
公开(公告)日:2017-02-15
申请号:CN201410165580.X
申请日:2014-04-23
Applicant: 清华大学
Abstract: 本发明涉及一种分布式计算机数据存储系统中多副本一致性的控制方法,属于计算机数据管理技术领域。首先根据设定的分布式系统的副本差异度,计算并设定分布式存储系统的节点的转发队列和执行队列长度,节点接收到读写请求后,首先判断节点的转发或执行队列的长度是否小于设定的阈值,若小于阈值,则将请求插入到相应的队列中,若大于或等于阈值,则将插入操作阻塞,直到队列长度小于阈值后,取消阻塞,将请求插入到相应的队列中。本发明方法通过对队列的长度控制和阻塞操作,能够使分布式存储系统的副本差异准确地维持在一定范围内,方法直观有效、便于使用。
-
公开(公告)号:CN106020719A
公开(公告)日:2016-10-12
申请号:CN201610318767.8
申请日:2016-05-13
Applicant: 广东电网有限责任公司信息中心 , 清华大学
IPC: G06F3/06
CPC classification number: G06F3/067 , G06F3/0607 , G06F3/0629
Abstract: 本发明涉及一种分布式存储系统的初始参数配置方法,属于计算机数据库管理技术领域。该方法分为三个阶段:训练阶段、使用阶段和动态更新阶段;用户先进行训练阶段得到性能模型,然后在使用阶段将性能模型用于解决分布式存储系统的初始参数配置问题;之后,在动态更新阶段,根据用户的反馈对性能模型进行动态更新。本方法能够有效避免了传统数据库和调参工具的冷启动问题,在满足用户需求的前提下尽可能地节省硬件成本,提高系统性能,为用户带来更高的性价比。
-
公开(公告)号:CN116775692B
公开(公告)日:2024-01-30
申请号:CN202310436472.0
申请日:2023-04-21
Applicant: 清华大学 , 天谋科技(北京)有限公司
IPC: G06F16/2453 , G06F16/2455 , G06F16/2458
Abstract: 本发明提供一种用于时序数据库的分段聚合查询方法及系统,包括:从时序数据库中获取时序数据,将所述时序数据的时间序列进行切分,分为多个子段;通过时间序列的第一个数据点初始化第一个子段并计算聚合值;从时间序列的第二个数据点开始,通过时间序列分段逻辑判断当前数据点是否为分割点,生成判断结果;根据所述判断结果更新聚合值或重新初始化聚合值,直至所述时间序列全部遍历完成;对于定长时间区段分段,当子段之间存在重叠,将时间序列切分成多个长度固定的子段,每个子段产生一个聚合值;所述时间序列全部遍历完成后生成聚合结果,输出结果集,完成分段聚合查询。本发明解决了现有时序数据分析处理效率低的问题。
-
-
-
-
-
-
-
-
-