-
公开(公告)号:CN109918437A
公开(公告)日:2019-06-21
申请号:CN201910178282.7
申请日:2019-03-08
Applicant: 北京中油瑞飞信息技术有限责任公司
IPC: G06F16/25
Abstract: 本发明提供一种分布式数据处理方法、装置及数据资产管理系统。方法包括:基于用户触发的用于创建ETL任务的第一操作指令,从预先存储的组件集中确定出与第一操作指令对应的数据抽取组件、数据转换组件及数据加载组件,其中,数据抽取组件用于从源数据库中获取待处理数据,数据转换组件用于对待处理数据按照预设执行策略进行处理,数据加载组件用于将待处理数据经处理后得到的数据加载到目标数据库中;根据第一操作指令中携带的配置参数、数据抽取组件、数据转换组件及数据加载组件构建配置文件;基于配置文件创建ETL任务,能够改善现有技术中因对不同功能需求需要用户单独开发程序代码而使得ETL任务创建的效率低的技术问题。
-
公开(公告)号:CN112036330A
公开(公告)日:2020-12-04
申请号:CN202010912265.4
申请日:2020-09-02
Applicant: 北京中油瑞飞信息技术有限责任公司
Abstract: 本申请提供了一种文本识别方法、文本识别装置及可读存储介质,应用于涉密文件,文本识别方法包括:获取非涉密文本样本和已过保密期的涉密文本样本;构建深度学习网络模型,并使用非涉密文本样本对构建好的深度学习网络模型进行预训练;使用已过保密期的涉密文本样本对预训练完毕的深度学习网络模型进行调优训练,得到训练好的文本识别模型;将待识别的涉密文本输入至文本识别模型中进行文本识别,得到所述涉密文本的文本信息。本发明采用已过保密期限的小样本的涉密文本样本对用于识别文本的深度学习网络模型进行调优训练,从而提高了对涉密文件的文字识别的准确度,并通过文本提取模型进一步实现了文本信息的提取,提高了提取的准确度。
-