数据迁移校正方法及系统
    148.
    发明授权

    公开(公告)号:CN107037978B

    公开(公告)日:2019-11-05

    申请号:CN201610930983.8

    申请日:2016-10-31

    Abstract: 本申请涉及数据迁移,特别涉及大型数据和特大型数据迁移和校正方法。本申请提供一种数据迁移校正的方法和系统,其中方法应用于具有控制器的系统中,控制器连接源数据服务器、目标数据服务器,包括步骤:源数据服务器存储有迁出文件,目标数据服务器具有未使用的存储空间,用于存放迁出文件,按源数据服务器的处理器核的个数的整数倍,将迁出文件划分为多个数据块,源数据服务器计算,获得每个数据块分别对应的数字摘要A;将数据摘要A保存于控制器中;并将迁出文件发送至目标数据服务器;在目标数据服务器中,在迁出文件转移的过程中平行计算经过数据迁移后的迁出文件中的数据块的数据摘要B;比较数据摘要A和数据摘要B是否相同;本申请用于解决大数据迁移时完整性校验的问题,其可靠性高、速度快。

    一种基于可视化脚本编辑器的分布式网络爬虫系统

    公开(公告)号:CN105243159B

    公开(公告)日:2019-06-25

    申请号:CN201510713985.7

    申请日:2015-10-28

    Abstract: 本发明提供一种基于可视化脚本编辑器的分布式网络爬虫系统,包括:可视化脚本编辑器、分布式消息队列、任务调度模块、网页抓取模块、内容处理模块、以及结果存储模块;根据用户通过可视化界面进行输入,系统自动生成元数据提取脚本,可以识别目标站点的结构,高效的抓取特定的数据,由任务调度模块创建分派任务,网页抓取模块负责抓取页面,内容处理模块调取对应脚本将页面转换为元数据集,最后统一处理,通过结果存储模块进行存储。本发明能够大幅提高针对特定站点数据的爬取效率,减少用户劳动强度,节省系统资源,并拥有良好的可扩展性和伸缩性,适用于所有类型的互联网站点。

    一种通用机器学习数据分析平台

    公开(公告)号:CN106779087B

    公开(公告)日:2019-02-22

    申请号:CN201611075837.8

    申请日:2016-11-30

    Abstract: 本发明提供一种通用机器学习数据分析平台,包括界面模块、数据存储模块、预处理模块、特征提取模块、特征转换模块、算法模块以及选择优化模块;所述特征提取模块根据用户设定的特征参数从所述待分析数据中提取所述特征参数;所述特征转换模块用于将用户设定的特征转换成用户所需的表示形式;所述算法模块包含多种算法模型供用户选择以及供用户构建模型,用户构建至少一组模型;所述选择优化模块从构建好的模型中选出最优的模型和最优的参数,然后保存所述最优的模型;上述各模块产生的数据均存储于所述数据存储模块中。本发明用户可以自由组合使用各个模块与算法模型,还可以建立复合模型,快速迭代开发出新型分析模型,大大提高工作效率。

Patent Agency Ranking