数据融合汇聚方法、装置及计算机可读存储介质

    公开(公告)号:CN118093574A

    公开(公告)日:2024-05-28

    申请号:CN202311785040.7

    申请日:2023-12-25

    Abstract: 本发明公开一种数据融合汇聚方法、装置及计算机可读存储介质。其中,该方法包括:接入多源数据,对接入的多源数据进行数据归集,并将归集后的数据存入原始数据库中;加载唯一索引规则库;加载原始数据库中的待识别数据;对待识别数据进行类型分类;根据唯一索引规则表对分类后的数据进行匹配识别,在匹配的情况下生成唯一索引确认清单表;根据接入的多源数据对匹配的唯一性进行验证;在验证成功的情况下,将唯一索引确认清单表存入唯一索引规则库并记录每个唯一索引在唯一索引确认清单表所在位置以及每个唯一索引对应的数据内容;根据唯一索引确认清单表索引对原始数据库中已识别的数据执行融合操作,并将融合后的数据存储至融合数据库中。

    数据清洗方法、装置及计算机可读存储介质

    公开(公告)号:CN117992438A

    公开(公告)日:2024-05-07

    申请号:CN202311797083.7

    申请日:2023-12-25

    Abstract: 本发明涉及数据清洗技术领域,公开了一种数据清洗方法、装置及计算机可读存储介质。其中,该方法包括:对目标数据集进行加载;对加载后的目标数据集进行属性字段切分得到属性列表;按照数据分析算法对属性列表中每列的属性数据进行数据处理,并根据数据处理结果得到每列对应的单个属性的清洗规则;将所有列各自对应的单个属性的清洗规则进行数据聚合,生成整个属性列表的清洗规则;根据整个属性列表的清洗规则执行数据清洗。由此,动态生成清洗规则,从而在后续清洗过程中达到较高的清洗目的。并且,针对数据处理量大的问题,可以对数据项列进行切分处理,从而加快数据清洗的速度,提高数据清洗的效率。

Patent Agency Ranking