基于Ray和Spark的可视化大数据机器学习系统及方法

    公开(公告)号:CN117171471A

    公开(公告)日:2023-12-05

    申请号:CN202310959145.3

    申请日:2023-08-01

    Abstract: 本发明属于可视化大数据技术领域,公开了一种基于Ray和Spark的可视化大数据机器学习系统及方法,该系统由前端UI、展示层、业务层、数据层、存储层以及运行环境组成,基于Ray和Spark的可视化大数据机器学习的方法包括基于Web可视化页面的各种数据源接入;基于Web可视化页面的机器学习模型和深度学习框架(TensorFlow,PyTorch,Keras等)的管理和接入;脚本生成与校验模块;Spark和Ray分布式处理与计算模块及通信;结果展示和保存。本发明能高效处理与分析海量数据,以便从中提取有价值的信息和洞察,并支持各种应用领域中的决策和创新。

    知识数据分布式任务计算引擎
    2.
    发明公开

    公开(公告)号:CN117112178A

    公开(公告)日:2023-11-24

    申请号:CN202311159475.0

    申请日:2023-09-11

    Abstract: 本发明提出一种知识数据分布式任务计算引擎,包括步骤:建立计算任务,在可视化流程配置界面,编排执行任务流程;创建定时任务,通过分布式任务调度工具设置任务的执行时间和周期,自动触发计算任务;计算引擎对执行作业进行处理,获取目标任务的编排配置,通过解析任务流程配置,生成执行流程,按照执行流程的节点的定义顺序,依次执行每个节点的逻辑,数据从一个节点经过处理后,传入下一节点进行下一步处理;根据计算引擎执行每一步的计算作业,输出最后的执行结果。通过本发明可以帮助用户快速构建和部署复杂的分析模型,通过计算引擎的支持,数据的分析与计算可以实现高效、准确和可扩展的处理。

    一种图像文本结构化提取方法及装置

    公开(公告)号:CN117058694A

    公开(公告)日:2023-11-14

    申请号:CN202310916790.7

    申请日:2023-07-25

    Abstract: 本发明提供了一种图像文本结构化提取方法及装置,包括利用样本图片制作模板图片,框选模板图片的固定参照区域和可变待识别区域;修正模板图片中固定参照区域的精确位置;获取待识别图片,对待识别图片进行文字识别,得到多个识别区域的字符串以及位置坐标;将待识别图片的字符串与模板图片的固定参照区域的字符串进行比对,找出匹配到相同字符串的4组坐标点;通过4组坐标点计算透视投影矩阵,并对待识别图片进行透视变换;对透视变换后的待识别图片的可变待识别区域进行裁剪,对裁剪的可变待识别区域进行文字识别,将识别到的字符串输出。本发明的优点在于:能够实现快速提取结构化文本信息,且能够适用于各种应用场景。

    一种智能化的多模态数据采集方法

    公开(公告)号:CN117056406A

    公开(公告)日:2023-11-14

    申请号:CN202310934981.6

    申请日:2023-07-28

    Abstract: 本发明涉及一种智能化的多模态数据采集方法。包括:在数仓管理模块中,针对要采集的原始数据配置其数据连接、入库数据、采集频率和资源需求等基本信息;根据数仓配置内容生成数据源的任务配置文件并上传到任务服务器,以作为数据采集中间件SeaTunnel的运行配置文件;运行任务调度模块,根据任务配置文件内容初始化任务运行资源并执行相应的数据采集任务;通过Hudi数据湖技术将从不同数据源中采集的多模态数据集中汇聚,形成统一的数据中心。本发明实现结构化、半结构化和非结构化等多模态数据的采集适配,避免针对不同类型数据分别编写采集任务的繁杂工作,提高了数据采集的效率,并且通过将采集数据统一汇聚,也有利于数据的集中管理,提高数据的利用率。

Patent Agency Ranking