-
公开(公告)号:CN111104466B
公开(公告)日:2023-07-28
申请号:CN201911357917.6
申请日:2019-12-25
Applicant: 中国长峰机电技术研究设计院
IPC: G06F16/28
Abstract: 本发明涉及一种海量数据库表快速分类的方法,其中,包括,计算互信息熵获取每个表的关键属性,根据属性字段类型的元数据信息及数据内容摘要构建所选属性的特征向量,利用机器学习的聚类算法对关键属性进行聚类,对聚类中心打标签,形成训练集训练分类算法,将训练好的分类算法应用于余属性分类,对分类结果进行抽样判断,反向优化分类算法,输出所有数据库表属性字段的类别。本发明结合数据库字段元数据信息和字段内容构建字段特征向量,通过对待分析的数据库关键字段进行聚类并设置数据领域(打标签),构建训练集,训练行业特色的分类算法,简化手工处理工作量。
-
公开(公告)号:CN111371830B
公开(公告)日:2022-09-30
申请号:CN201911170749.X
申请日:2019-11-26
Applicant: 中国长峰机电技术研究设计院
IPC: H04L67/12
Abstract: 本发明涉及一种万网融合场景下基于数据驱动的智能协同云架构,其中,包括:数据解析层用于整理并挖掘数据,形成初级数据产品,供人工智能与专家系统层提取;人工智能与专家系统层用于提取数据解析层所提供的初级数据产品并根据需要进行深加工;网间网平台层用于提供数据以及业务互通的标准规范;应用平台层用于从网间网平台层提取通用数据产品,进行架构和行业共性服务支撑;APP及终端应用层用于向应用平台层发出数据获取申请,并从应用平台层获得用户所需数据产品;数据采集领域,用于进行多元异构数据的采集。本发明一种万网融合场景下基于数据驱动的智能协同云架构能够有效解决跨行业、跨领域信息资源分散、利用率低,沟通不畅等现实问题。
-