机器学习项目代码修改检测方法及装置

    公开(公告)号:CN116860605A

    公开(公告)日:2023-10-10

    申请号:CN202310628036.3

    申请日:2023-05-30

    Applicant: 清华大学

    Abstract: 本发明提供一种机器学习项目代码修改检测方法及装置,包括:获取待处理代码文件目录;基于待处理代码文件目录获取变更文件列表,以生成历史提交代码文件目录;根据预设后缀名对变更文件列表进行文件后缀名筛选,以得到待处理文件列表;将待处理文件列表根目录下各级文件夹名和文件名与预设字符串进行相似度匹配,以得到待判断文件列表;提取待处理代码文件目录和历史提交代码文件目录的待判断文件列表中文件的抽象语法树,记为t1和t2;提取t1和t2中预设类型节点,比较节点预设属性内容,判断是否发生变更,输出检测结果。本发明挖掘发生了改动的文件的抽象语法树,根据节点类型进行不同判断,方便快捷的对机器学习项目代码修改做出检测。

    基于遗传算法的任务调度信息的确定方法、装置和设备

    公开(公告)号:CN115145723A

    公开(公告)日:2022-10-04

    申请号:CN202210673085.4

    申请日:2022-06-15

    Applicant: 清华大学

    Abstract: 本申请提供一种基于遗传算法的任务调度信息的确定方法、装置和设备,涉及计算机领域和任务处理技术领域。该方法包括:获取任务调度信息集合;遗传算法的遗传算子对任务调度信息集合进行处理,得到任务处理结果;对任务处理结果进行处理,得到任务调度信息的中间特征,以及任务调度信息的适应度;根据各任务调度信息的中间特征,确定下一轮遗传算法的遗传算子;基于达到预设条件时所得到的遗传算子,对任务调度信息集合进行处理,得到适应度更高的任务调度信息的集合。本申请的方法可以充分发挥遗传算法兼顾广度和深度搜索的特点,自动适配每一轮遗传算法使用的遗传算子,提升调度任务信息的准确性。

    基于向量时钟的分布式键值数据库的副本修复方法与装置

    公开(公告)号:CN109739684A

    公开(公告)日:2019-05-10

    申请号:CN201811384997.X

    申请日:2018-11-20

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种基于向量时钟的分布式键值数据库的副本修复方法与装置,其中所述方法包括:分别为每个节点对应分配一个向量时钟,并设置一个写操作版本变量,向量时钟的各分量表示相应节点作为写操作的协调者节点的写操作,写操作版本变量记录写操作版本号;在每次进行写操作时,更新执行写操作的节点对应的写操作版本号,并基于向量时钟和写操作版本号,记录不同节点间的丢失写操作序列;基于更新的写操作版本号和丢失写操作序列,读取其余副本所在节点写操作的最新数据,以供待修复副本所在节点根据最新数据,修复待修复副本。本发明实施例能够有效降低修复过程的繁琐程度,提高修复效率。

    一种基于多层次列式存储结构的时序数据存储方法

    公开(公告)号:CN108182244B

    公开(公告)日:2019-04-05

    申请号:CN201711461821.5

    申请日:2017-12-28

    Applicant: 清华大学

    Abstract: 本发明提供一种基于多层次列式存储结构的时序数据存储方法,将所有待存储时序数据存储于文件中,所述文件包括第一部分和第二部分;将每一待存储时序数据的获取时间和每一待存储时序数据的数据值存储于所述第一部分;将所述第一部分划分为若干个行组;将每一行组划分为若干个列组;将所有行组的个数、每一行组在文件的偏移量、每一行组中所有列组的个数、每一时序数据的属性值和每一列组在所述文件的偏移量作为所述第二部分。本方法对时序数据按列组织,将同一行组内的同一列的数据在文件中连续存储,从而使得被查询的数据在文件中处于相近的位置,可以减少查询时对时序数据的读取量,从而提高查询的速度,提高了磁盘的IO性能。

    基于t分布哈希的图像检索方法及系统

    公开(公告)号:CN107944045B

    公开(公告)日:2019-02-05

    申请号:CN201711350971.9

    申请日:2017-12-15

    Applicant: 清华大学

    Abstract: 本发明提供一种基于t分布哈希的图像检索方法及系统,在通过构建的深度卷积网络对图片生成低维图像表征时,设计合理的损失函数,将汉明空间中相似图片对应的数据点充分地聚拢,使得检索时可以在更小的汉明距离基准下找到更多的相似数据点;另外,由于采用了汉明距离作为排序基准,在模型训练和图像数据库初始化完成后,对于给定的查询图像检索速度非常快。

    一种基于时域和频域的时序数据存储方法和系统

    公开(公告)号:CN107908594B

    公开(公告)日:2018-12-28

    申请号:CN201711320919.9

    申请日:2017-12-12

    Applicant: 清华大学

    Abstract: 本发明提供一种基于时域和频域的时序数据存储方法和系统,所述方法包括将待存储的时序数据分为若干段时间序列数据,依次提取每段时间序列数据中值列的频域信息;计算所述频域信息的误差率,并与设定的可容忍误差率相比;若所述频域信息的误差率小于可容忍误差率,则该段时间序列数据的时间列存储时域信息,值列存储所述频域信息;若所述频域信息的误差率大于可容忍误差率,则该段时间序列数据的时间列存储时域信息,值列存储时域信息。利用时间序列的频域特点,对时间序列值列按照需求进行频域和时域混合存储,能够适应不同的时间序列场景和用户需求,极大降低了存储空间,可通过用户设置参数实现磁盘占用和误差率间的平衡。

    一种大数据分析开发平台中异构算子管理方法

    公开(公告)号:CN107943945B

    公开(公告)日:2018-12-11

    申请号:CN201711188355.8

    申请日:2017-11-24

    Applicant: 清华大学

    Abstract: 本发明提供一种大数据分析开发平台中异构算子管理方法,所述方法包括:S1,对用于数据分析的各种算法进行编码生成算子,将所述算子的信息保存到数据库中;S2,根据用户导入的自定义的算子的信息,使用新增算子接口将所述自定义的算子保存到所述数据库中;S3,当接收到查询请求时,根据所述查询请求中的筛选参数使用算子查询接口对所述数据库中的算子进行查询。本发明为算子构造成为节点、节点生成节点运行实例提供接口与相应的底层实现,为分析平台提供了良好的支撑,实现了对不同类型算子进行归档整理功能,降低了开发时间,统一算子的管理接口规范,便于对算子库进行维护和更新,且易于扩充,适应性强。

    基于多阶差分网络的高频时序数据处理方法

    公开(公告)号:CN107918660B

    公开(公告)日:2018-12-11

    申请号:CN201711165914.3

    申请日:2017-11-21

    Applicant: 清华大学

    Abstract: 本发明实施例提供了一种基于多阶差分网络的高频时序数据处理方法,包括:S1,获取高频时序数据,并将所述高频时序数据输入训练好的多阶差分网络模型;S2,若判断获知所述高频时序数据超过预设长度,则利用所述采样模块对所述高频时序数据进行下采样,并将下采样得到的时序数据与所述高频时序数据进行组合形成第一数据集;S3,利用所述差分模块对所述第一数据集进行多次差分,并将多次差分得到的多个数据集与所述第一数据集组合形成第二数据集;S4,利用所述递归层和所述全连接层对所述第二数据集进行处理,以得到所述高频时序数据的分类结果向量。实现了多阶差分网络模型对高频时序数据的自动化处理,且结果准确。

    一种基于多任务深度网络的多源大数据分析方法

    公开(公告)号:CN107977456B

    公开(公告)日:2018-10-30

    申请号:CN201711353319.2

    申请日:2017-12-15

    Applicant: 清华大学

    Abstract: 本发明实施例提供了一种基于多任务深度网络的多源大数据分析方法及系统,所述方法包括:将待分析多源大数据输入训练好的多任务深度网络,得到所述待分析多源大数据的多个任务的分析结果;其中,所述训练好的多任务深度网络分类层的前一层具有与所述多个任务一一对应的多个网络参数,用于根据所述分类层前一层的输入特征得到所述分类层中每个分类器的输入特征。在训练得到用于多源大数据分析的多任务深度网络的过程中,将分类层的前一层设为不共享网络参数的特定任务相关层,更好的挖掘了不同任务之间的联系;利用张量正态分布作为先验概率来挖掘特定任务相关层网络参数之间的关系;使得训练后的多任务深度网络对多源大数据的分析更加快速准确。

    一种跨界大数据分析系统和方法

    公开(公告)号:CN108108819A

    公开(公告)日:2018-06-01

    申请号:CN201711353314.X

    申请日:2017-12-15

    Applicant: 清华大学

    CPC classification number: G06K9/6256 G06K9/6267 G06K9/6288 G06N20/00

    Abstract: 本发明提供一种跨界大数据分析系统和方法,包括跨界算子模块、算子选择模块、算子训练模块和任务分析模块;跨界算子模块用于存储多个算子,算子选择模块用于接收算子需求信息,根据算子需求信息选择目标算子,算子训练模块用于通过训练样本训练目标算子,获得训练好的模型,任务分析模块用于通过训练好的模型对分析任务进行分析;该分析系统集成了跨界算子模块和算子选择模块,将大数据分析算子整合到跨界算子模块中,可根据用户输入的算子需求信息选择满足分析任务的要求的算子,并对算子进行训练,获得训练好的模型并完成分析任务,将用户从繁琐的算子选择中解脱出来。

Patent Agency Ranking