数据迁移校正方法及系统
    102.
    发明授权

    公开(公告)号:CN107037978B

    公开(公告)日:2019-11-05

    申请号:CN201610930983.8

    申请日:2016-10-31

    Abstract: 本申请涉及数据迁移,特别涉及大型数据和特大型数据迁移和校正方法。本申请提供一种数据迁移校正的方法和系统,其中方法应用于具有控制器的系统中,控制器连接源数据服务器、目标数据服务器,包括步骤:源数据服务器存储有迁出文件,目标数据服务器具有未使用的存储空间,用于存放迁出文件,按源数据服务器的处理器核的个数的整数倍,将迁出文件划分为多个数据块,源数据服务器计算,获得每个数据块分别对应的数字摘要A;将数据摘要A保存于控制器中;并将迁出文件发送至目标数据服务器;在目标数据服务器中,在迁出文件转移的过程中平行计算经过数据迁移后的迁出文件中的数据块的数据摘要B;比较数据摘要A和数据摘要B是否相同;本申请用于解决大数据迁移时完整性校验的问题,其可靠性高、速度快。

    一种基于可视化脚本编辑器的分布式网络爬虫系统

    公开(公告)号:CN105243159B

    公开(公告)日:2019-06-25

    申请号:CN201510713985.7

    申请日:2015-10-28

    Abstract: 本发明提供一种基于可视化脚本编辑器的分布式网络爬虫系统,包括:可视化脚本编辑器、分布式消息队列、任务调度模块、网页抓取模块、内容处理模块、以及结果存储模块;根据用户通过可视化界面进行输入,系统自动生成元数据提取脚本,可以识别目标站点的结构,高效的抓取特定的数据,由任务调度模块创建分派任务,网页抓取模块负责抓取页面,内容处理模块调取对应脚本将页面转换为元数据集,最后统一处理,通过结果存储模块进行存储。本发明能够大幅提高针对特定站点数据的爬取效率,减少用户劳动强度,节省系统资源,并拥有良好的可扩展性和伸缩性,适用于所有类型的互联网站点。

    一种通用机器学习数据分析平台

    公开(公告)号:CN106779087B

    公开(公告)日:2019-02-22

    申请号:CN201611075837.8

    申请日:2016-11-30

    Abstract: 本发明提供一种通用机器学习数据分析平台,包括界面模块、数据存储模块、预处理模块、特征提取模块、特征转换模块、算法模块以及选择优化模块;所述特征提取模块根据用户设定的特征参数从所述待分析数据中提取所述特征参数;所述特征转换模块用于将用户设定的特征转换成用户所需的表示形式;所述算法模块包含多种算法模型供用户选择以及供用户构建模型,用户构建至少一组模型;所述选择优化模块从构建好的模型中选出最优的模型和最优的参数,然后保存所述最优的模型;上述各模块产生的数据均存储于所述数据存储模块中。本发明用户可以自由组合使用各个模块与算法模型,还可以建立复合模型,快速迭代开发出新型分析模型,大大提高工作效率。

    一种基于稀疏编码特征提取的场景识别方法

    公开(公告)号:CN108596195A

    公开(公告)日:2018-09-28

    申请号:CN201810435125.5

    申请日:2018-05-09

    Abstract: 本发明涉及图像识别技术领域,特别涉及一种基于稀疏编码特征提取的场景识别方法。一种基于稀疏编码特征提取的场景识别方法,包括步骤:对预先采集的用于训练的样本图像集进行预处理操作;提取样本图像集的特征表达向量;将特征表达向量及其对应的类别标注加入线性分类器中,构建线性场景分类器;对待识别的样本图像集进行预处理操作;提取待识别的样本图像集的特征表达向量;将待识别的样本图像集的特征表达向量送入线性场景分类器中识别,获得样本图像集的所属场景类的类别标注。采用稀疏编码技术可以在降低图像维度的同时保留图像的主要信息,同时对噪声及遮挡具有强大的鲁棒性。

    数据迁移校正方法及系统
    108.
    发明公开

    公开(公告)号:CN107037978A

    公开(公告)日:2017-08-11

    申请号:CN201610930983.8

    申请日:2016-10-31

    Abstract: 本申请涉及数据迁移,特别涉及大型数据和特大型数据迁移和校正方法。本申请提供一种数据迁移校正的方法和系统,其中方法应用于具有控制器的系统中,控制器连接源数据服务器、目标数据服务器,包括步骤:源数据服务器存储有迁出文件,目标数据服务器具有未使用的存储空间,用于存放迁出文件,按源数据服务器的处理器核的个数的整数倍,将迁出文件划分为多个数据块,源数据服务器计算,获得每个数据块分别对应的数字摘要A;将数据摘要A保存于控制器中;并将迁出文件发送至目标数据服务器;在目标数据服务器中,在迁出文件转移的过程中平行计算经过数据迁移后的迁出文件中的数据块的数据摘要B;比较数据摘要A和数据摘要B是否相同;本申请用于解决大数据迁移时完整性校验的问题,其可靠性高、速度快。

    一种通用机器学习数据分析平台

    公开(公告)号:CN106779087A

    公开(公告)日:2017-05-31

    申请号:CN201611075837.8

    申请日:2016-11-30

    CPC classification number: G06N99/005

    Abstract: 本发明提供一种通用机器学习数据分析平台,包括界面模块、数据存储模块、预处理模块、特征提取模块、特征转换模块、算法模块以及选择优化模块;所述特征提取模块根据用户设定的特征参数从所述待分析数据中提取所述特征参数;所述特征转换模块用于将用户设定的特征转换成用户所需的表示形式;所述算法模块包含多种算法模型供用户选择以及供用户构建模型,用户构建至少一组模型;所述选择优化模块从构建好的模型中选出最优的模型和最优的参数,然后保存所述最优的模型;上述各模块产生的数据均存储于所述数据存储模块中。本发明用户可以自由组合使用各个模块与算法模型,还可以建立复合模型,快速迭代开发出新型分析模型,大大提高工作效率。

    一种基于maven插件和freemarker模版的代码生成方法及装置

    公开(公告)号:CN103500087B

    公开(公告)日:2016-08-17

    申请号:CN201310424542.7

    申请日:2013-09-17

    CPC classification number: G06F8/30

    Abstract: 一种基于maven插件和freemarker模版的代码生成方法及装置,包括:准备数据和模版:根据数据库设计文档或数据库表编写或生成.hbm.xml文件,依据项目特点和freemarker模版语法编写模版;调用maven插件进行逻辑运算生成代码的步骤:调用封装了代码生成的运算逻辑的maven插件,根据第一步骤所准备的.hbm.xml文件和freemarker模版文件进行逻辑运算和代码生成;代码生成:将宏套用在代码模板中生成MVC三层架构的目标代码。本发明解决了开发过程中重复性代码的自动生成问题,并且能根据模版进行实际情况下的定制,对于提高生产效率有良好的效果。将代码自动生成和常用构建工具maven绑定在一起,提高了装置的通用性和易用性。

Patent Agency Ranking