一种基于滑动窗口的数据可视化方法和系统

    公开(公告)号:CN108073700A

    公开(公告)日:2018-05-25

    申请号:CN201711320723.X

    申请日:2017-12-12

    Applicant: 清华大学

    CPC classification number: G06F16/904

    Abstract: 本发明提供一种基于滑动窗口的数据可视化方法和系统,可视化方法包括:基于滑动窗口的长度和显示区域宽度上的像素数目,确定滑动窗口中的每一像素列的流数据点数;对于任一像素列,获取任一像素列的第一个流数据点、最后一个流数据点、流数据最大值点和流数据最小值点组成一像素列组,作为任一像素列对应的像素列组;多个像素列组组成一个维护列组,将维护列组存入循环数组,多个像素列组的维护列组数目与显示区域宽度上的像素数目相等;对维护列组中的所有流数据点进行重新渲染,以使得数据可视化。本发明大大缩减了数据量,对于内存占用、渲染效率都有很大的提升。本发明可以在流数据高速到来的条件下,对滑动窗口内的流数据进行高效的渲染。

    一种支持特征查询的时序数据存储的方法和装置

    公开(公告)号:CN108052599A

    公开(公告)日:2018-05-18

    申请号:CN201711322634.9

    申请日:2017-12-12

    Applicant: 清华大学

    CPC classification number: G06F16/2474 G06F16/22 G06F16/2477

    Abstract: 本发明提供一种支持特征查询的时序数据存储的方法和装置,包括:将待存储的时序数据划分成若干包括多个连续的数据点的数据点集合,通过预设的特征函数计算每个数据点集合的特征值,将每个数据点集合中数据点的时间戳和数据值作为对应数据点集合的原始数据,将特征函数的信息、每个数据点集合的时段信息和特征值作为对应数据点集合的特征数据信息,将一个原始数据块作为一个数据点集合的原始数据的存储空间,对每一数据点集合的原始数据进行存储,将一个特征数据块作为一个数据点集合的特征数据信息的存储空间,对每一数据点集合的特征数据信息进行存储;通过上述存储方法存储的时序数据,既支持对原始的时序数据的查询,又支持对特征值的查询。

    基于结构语义融合的大规模混合图特征学习方法

    公开(公告)号:CN107944489A

    公开(公告)日:2018-04-20

    申请号:CN201711169332.2

    申请日:2017-11-17

    Applicant: 清华大学

    CPC classification number: G06K9/6262 G06K9/726

    Abstract: 本发明提供一种基于结构语义融合的大规模混合图特征学习方法,包括:获取训练语义标签信息集Strain,获取节点对集Pe,Pe={(u,v)},遍历节点对(u,v);判断遍历节点对(u,v)是否完成;若判断获知遍历节点对(u,v)未完成,则对节点u进行负采样,并计算相连损失函数和不相连损失函数;若判断获知节点u在Vtrain中,则根据Strain计算语义损失函数;更新节点u的初始化特征表示、节点v的初始化特征表示以及负采样得到的节点的初始化特征表示;重复判断遍历节点对(u,v)是否完成,直到遍历节点对(u,v)完成。本发明提供的基于结构语义融合的大规模混合图特征学习方法,根据语义标签信息对节点的特征表示进行校正,将语义标签信息作为图特征学习的一部分,提高了图特征学习的质量。

    一种时序数据列式存储、查询方法及系统

    公开(公告)号:CN107871022A

    公开(公告)日:2018-04-03

    申请号:CN201711384490.X

    申请日:2017-12-20

    Applicant: 清华大学

    CPC classification number: G06F17/30315 G06F17/30548 G06F17/30551

    Abstract: 本发明提供一种时序数据列式存储、查询方法及系统,所述的存储方法包括:将一列时序数据划分为多个页,每一页存储所述一列时序数据的一部分数据点,所有页中存储的数据点总和为一列时序数据中所有的数据点;为每一页设置页头和页体两部分,针对每一页,将该页中所有数据点的聚合索引信息存储于该页的页头中,以及将该页中所有数据点的数据值信息存储于该页的页体中。通过本发明,能够将一组时序数据的时间戳和具体的数据值存储在一个列中,减少了数据查询时的磁盘I/O;以及将数据按照页进行划分,并分别建立聚合索引信息,加快了数据的查询速度。

    面向大规模图挖掘的分布式网络表示学习方法

    公开(公告)号:CN107818176A

    公开(公告)日:2018-03-20

    申请号:CN201711166875.9

    申请日:2017-11-21

    Applicant: 清华大学

    CPC classification number: G06F17/30247

    Abstract: 本发明涉及面向大规模图挖掘的分布式网络表示学习系统,其中包括三种分别用于减少内存开销、加速模型训练和提高通信效率的核心优化技术,属于计算机大数据分析技术领域。该系统以多进程的方式运行在集群中,按照性质将进程区分成客户端和服务端:客户端负责数据加载以及与服务端进行交互,而服务端负责存储特征矩阵和处理客户端的计算请求。本发明解决了分布式网络表示学习过程中内存占用大和传输数据量较大的问题。特别地,本文详细描述了基于数据块的边抽样方式、特征矩阵的列划分技术以及基于内积离散化和状态记录的高效通信机制。本发明具有训练速度快、内存占用小、特征表达能力强和能处理大规模图数据的特点。

    一种实时更正数据的存储与缓存读取方法

    公开(公告)号:CN106951490A

    公开(公告)日:2017-07-14

    申请号:CN201710149222.3

    申请日:2017-03-14

    Applicant: 清华大学

    Abstract: 本发明涉及一种大规模实时更正数据的存储与缓存读取方法,属于计算机数据管理技术领域。本发明面向工业物联网、气象信息网中出现的一类重要的实时更正数据,数据读取以按时间维度的批量读取为主,数据量大且需要进行实时更正。本发明方法实现数据存储、数据直接读取与数据缓存读取,既能快速返回数据,又支持更正数据的实时更新,并通过缓存提升用户获取速度的时间。本发明克服了目前的分布式系统中广泛存在的大规模实时更正数据存储和读取性能无法达到要求的难题,方法直观有效、便于使用。

    一种大数据系统构件的自动选型方法

    公开(公告)号:CN106126515A

    公开(公告)日:2016-11-16

    申请号:CN201610312904.7

    申请日:2016-05-12

    CPC classification number: G06F16/90

    Abstract: 本发明涉及一种大数据系统构件的自动选型方法,属于计算机数据库管理技术领域,该方法分为三个阶段,训练阶段、使用阶段和动态更新阶段。用户先收集初始训练数据,进行训练阶段;再将训练阶段得到的选型决策树应用于大数据系统构件的自动选型;之后,根据用户的反馈对选型决策树进行动态更新,使得选型决策树提高选型的准确度。本方法可提高选型的准确度,能够有效减少用户对大数据系统调研、选择、决策的时间,使得用户可以快速地开发他们的大数据应用。

    一种非结构化数据查询操作语言的解析与处理方法

    公开(公告)号:CN102750354A

    公开(公告)日:2012-10-24

    申请号:CN201210190832.5

    申请日:2012-06-11

    Applicant: 清华大学

    Abstract: 本发明涉及一种非结构化数据管理查询语言的解析和处理方法,属于计算机数据管理技术领域。本发明提出的非结构化数据管理查询语言的解析和处理方法,针对非结构化数据的查询,定义了结构化的查询语言,与传统关系数据库的查询语言语法类似,该语言易扩展并可融合自定义的查询函数。本方法首先启动键值库中的查询模块,接收用户的查询语言请求,对语言进行解析并转换为内部命令;查询模块根据内部命令调用键值库中各功能模块去执行;命令执行完毕向用户返回结果。本发明方法的核心是查询模块,通过设计一种类似SQL语言的方式来访问底层的键值库,使用户通过轻松操作键值库,管理非结构化数据。

Patent Agency Ranking