一种面向跨领域智能分析的多网络对抗学习方法和系统

    公开(公告)号:CN108009633A

    公开(公告)日:2018-05-08

    申请号:CN201711353313.5

    申请日:2017-12-15

    Applicant: 清华大学

    CPC classification number: G06N3/0454 G06K9/628 G06N3/084

    Abstract: 本发明提供一种面向跨领域智能分析的多网络对抗学习方法和系统,在深度神经网络分类器的基础上增加了一组与类别一一对应的辨别器,每个辨别器分别应用于对其对应类别的源领域、目标领域数据分布进行对抗学习,从而减小领域间对应每一个模式的分布。在训练中,每个数据参与各辨别器训练的权重由数据在深度神经网络分类器正向传播后得到的伪标注决定。分类器的训练目标是通过调整参数,取得最大化辨别器损失函数和最小化分类器损失函数与辨别器损失函数之和的均衡。能有效地解决数据分布呈多模式结构、难以消除偏移的难题,并在多个跨领域智能分析任务中取得了着良好的效果。

    一种基于多任务深度网络的多源大数据分析方法

    公开(公告)号:CN107977456A

    公开(公告)日:2018-05-01

    申请号:CN201711353319.2

    申请日:2017-12-15

    Applicant: 清华大学

    CPC classification number: G06F17/30539 G06F17/30563 G06N3/08

    Abstract: 本发明实施例提供了一种基于多任务深度网络的多源大数据分析方法及系统,所述方法包括:将待分析多源大数据输入训练好的多任务深度网络,得到所述待分析多源大数据的多个任务的分析结果;其中,所述训练好的多任务深度网络分类层的前一层具有与所述多个任务一一对应的多个网络参数,用于根据所述分类层前一层的输入特征得到所述分类层中每个分类器的输入特征。在训练得到用于多源大数据分析的多任务深度网络的过程中,将分类层的前一层设为不共享网络参数的特定任务相关层,更好的挖掘了不同任务之间的联系;利用张量正态分布作为先验概率来挖掘特定任务相关层网络参数之间的关系;使得训练后的多任务深度网络对多源大数据的分析更加快速准确。

    一种领域适应性网络的深度迁移学习方法

    公开(公告)号:CN107958286A

    公开(公告)日:2018-04-24

    申请号:CN201711183073.9

    申请日:2017-11-23

    Applicant: 清华大学

    CPC classification number: G06N3/08 G06N3/084

    Abstract: 本发明提供一种领域适应性网络的深度迁移学习方法,通过根据每一任务相关层对应的分布差异,分类错误率和错配度,确定领域适应性网络的损失函数的值,其中,任一任务相关层对应的分布差异为源域与目标域分别对应的该任一任务相关层中的特征的概率分布之间的分布差异;并基于损失函数的值,更新领域适应性网络的参数,以使领域适应性网络适配目标域;从而将源域和目标域分别对应的每一任务相关层中的特征的概率分布之间的分布差异作为领域适应性网络的损失函数的值的组成部分,在不同领域间同时匹配了深度网络的每一任务相关层,更好地修正边缘分布和条件分布在不同领域间的差异,保证了迁移学习的可靠性,最终保证领域适应性网络迁移学习的效果。

    一种基于时空金字塔网络的视频识别方法

    公开(公告)号:CN107909041A

    公开(公告)日:2018-04-13

    申请号:CN201711164855.8

    申请日:2017-11-21

    Applicant: 清华大学

    CPC classification number: G06K9/6232 G06K9/00711 G06N3/0454

    Abstract: 本发明提供一种基于时空金字塔网络的视频识别方法,包括:通过卷积神经网络提取视频片段样本集中每一视频片段样本的特征,并进行时空双线性算子处理获得第一向量,通过第二卷积神经网络获取图像样本的图像信息获得第二向量;将第一向量和第二向量拼接后的向量进行所述时空双线性算子处理;将输出结果和第二向量进行加权池化获得第三向量;通过平均池化获得第四向量和第五向量,接着进行时空双线性算子处理获得第六向量;根据损失值对所述待测视频进行识别。本发明通过降维运算和逆变换运算解决了双线性融合维度灾难和运算复杂度高的问题,通过改进双线性融合算子,在两个视频具有相似背景或者短片上相似情况下,得到更好的识别效果。

    一种基于频域特征的子序列检索方法和系统

    公开(公告)号:CN107908593A

    公开(公告)日:2018-04-13

    申请号:CN201711319350.4

    申请日:2017-12-12

    Applicant: 清华大学

    CPC classification number: G06F17/141 G06F17/30536 G06F17/30548

    Abstract: 本发明提供一种基于频域特征的子序列检索方法和系统,检索方法包括:将滑动窗口在数据库的所有序列上依次滑动,滑动窗口任一次滑动获取一个与滑动窗口长度相等的子序列;对每一子序列进行离散傅里叶变换,获取每一子序列对应的频域特征序列,所有子序列对应的频域特征序列构成频域特征序列集合;遍历频域特征序列集合,基于降维规则对频域特征序列集合进行降维,获取基于频域特征的降维表示的序列;通过空间索引方法对降维表示的序列进行检索。本发明能够有效减少虚假匹配结果的数量,使得降维表示后的序列之间的距离更加接近原序列之间的实际距离,进而减小子序列近似查询的响应时间。本发明具备应对大数据的能力,且具有更好的实用价值。

    分布式计算机存储系统中数据副本异构存储与访问方法

    公开(公告)号:CN107807793A

    公开(公告)日:2018-03-16

    申请号:CN201711024532.9

    申请日:2017-10-27

    Applicant: 清华大学

    Abstract: 本发明涉及一种分布式计算机存储系统中数据副本异构存储与访问方法,属于计算机数据管理技术领域。首先根据用户指定的属性优先级和数据副本数n进行属性分配,每个数据副本对应一个存储特征,并根据存储特征创建各个数据副本的存储模型,随后将数据写入到n个数据副本中;在访问请求到来时,解析访问条件,生成访问属性集,计算各个数据副本的访问优先级,找出最佳访问数据副本进行访问。本发明将不同数据副本按照用户访问特点按不同属性排序存储,从而使分布式计算机存储系统中数据的多个数据副本能够快速响应用户在数据不同属性上的访问请求,使得多副本技术在提高系统可用性的基础上,还提升了系统的访问性能。

    分布式数据存储系统中多维有序数据的存储方法

    公开(公告)号:CN105975634B

    公开(公告)日:2017-10-31

    申请号:CN201610459969.4

    申请日:2016-06-22

    Applicant: 清华大学

    Abstract: 本发明涉及一种分布式数据存储系统中多维有序数据的存储方法,属于计算机数据管理技术领域。该方法首先对待存储对象进行定义,得到由待存储对象组成的多维有序数据集合,并对基于该多维有序数据集合的操作进行定义;随后枚举所有的存储方案并计算相应的期望时间代价,最终选择期望时间代价最小的存储方案作为最终存储方案。本发明能够有效的找到一种高效的多维有序数据集合存储方案,方法直观有效、便于使用。

    一种分布迭代式数据处理程序异常检测与诊断方法

    公开(公告)号:CN105975604B

    公开(公告)日:2017-10-03

    申请号:CN201610312729.1

    申请日:2016-05-12

    Applicant: 清华大学

    Abstract: 本发明涉及一种分布迭代式数据处理程序异常检测与诊断方法,属于计算机数据管理技术领域。该方法包括训练模型和检测诊断两个阶段;首先基于源代码分析进行日志模板库的提取,其次基于模板库从海量日志数据中分别提取数据分块和任务单元对应的特征向量并进行异常检测模型训练,之后结合领域知识进行异常类型标注,然后利用训练好的模型对未来计算任务进行异常检测,并使用可视化界面给出异常分析,最后将特征单元与代码定位信息关联到一起,通过将异常特征单元映射到程序代码中实现程序的异常检测与诊断。本方法能够从多角度检测和诊断出分布迭代式数据处理程序的主要异常,方法直观易用、交互性好,可显著减少用户进行程序异常检测和诊断的时间。

    一种支持时序数据聚合函数的索引方法

    公开(公告)号:CN106202384A

    公开(公告)日:2016-12-07

    申请号:CN201610536956.2

    申请日:2016-07-08

    Applicant: 清华大学

    CPC classification number: G06F17/30336 G06F17/30339

    Abstract: 一种支持时序数据聚合函数的索引方法,能够支持简单聚合操作的快速即席查询。其基本思想是将概要表和线段树(Segment Tree)结合起来,在概要表上建立由多棵线段树构成的线段森林模型,从而避免概要表的全表扫描操作。同时,通过自底向上的方式动态构建线段森林,回避了传统线段树不支持增长的缺点。此外,查询算法通过计算直接定位索引数据,避免了对线段森林的递归遍历操作,减少了磁盘IO次数。实验结果表明,本文采用的概要表+线段森林的计算查询方式,有效减少了磁盘IO的次数,显著提升了查询性能。

    一种分布式迭代计算系统的任务参数优化方法

    公开(公告)号:CN106021495A

    公开(公告)日:2016-10-12

    申请号:CN201610341201.7

    申请日:2016-05-20

    Applicant: 清华大学

    CPC classification number: G06F17/30306

    Abstract: 本发明涉及一种分布式迭代计算系统中的任务参数优化方法,属于分布式数据处理技术领域。本方法首先采集分布式迭代计算系统中历史任务的运行数据,构建历史数据库;进行任务参数优化时,根据约束条件对历史数据库中显著不相关的运行数据进行一次过滤;然后对待优化任务对应的历史数据库中的运行数据与一次过滤后的运行数据进行有向无环图的相似度计算,并对相似度低于一定阈值的运行数据进行二次过滤;最后将两次过滤后的结果经过计算排序,并将排序后的运行数据所对应的任务参数作为任务参数优化结果。本发明能自动进行分布式迭代计算系统的任务参数优化,是一种即插即用型自适应调优方法,能够显著降低用户使用分布式迭代计算系统的门槛。

Patent Agency Ranking