-
公开(公告)号:CN107358334A
公开(公告)日:2017-11-17
申请号:CN201710379309.X
申请日:2017-05-25
申请人: 全球能源互联网研究院 , 国家电网公司 , 国网上海市电力公司
摘要: 数据准确性判定方法、装置、终端及计算机可读存储介质,其中数据准确性判定方法,包括:获取数据集,其中数据集由至少一个表单组成;确定所述表单的类型;根据表单的类型,确定表单的质量判别参数,其中表单的类型对应的质量判别参数预存在质量判别参数库中;根据表单的质量判别参数,计算数据集的判别特征参数,判别特征参数用于判断数据集中数据的准确性;根据判别特征参数判别所述数据集的准确性,解决了现有数据集的数据处理加工过程造成数据被重复计算,降低了判断数据准确性的效率,且使用多种方式对数据的准确性进行评价过程中由于得到不同的判断结果,可能造成多个判断结果相互干扰,影响最终数据判断的准确性。
-
公开(公告)号:CN106250460A
公开(公告)日:2016-12-21
申请号:CN201610607561.7
申请日:2016-07-28
申请人: 全球能源互联网研究院 , 国网上海市电力公司 , 国家电网公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30289
摘要: 本发明涉及一种考虑任务相关性的Hive优化方法及系统,所述方法包括:将HQL语句转化为MapReduce物理计划,并获取所述MapReduce物理计划中各MapReduce Job在shuffle阶段用于排序的键shuffle key;根据相关性规则,合并所述各MapReduce Job中相关MapReduce Job;本发明提供的方法及系统,考虑Hive执行过程中,任务之间的相关性,最小化MapReduce Job数量。
-
公开(公告)号:CN107358334B
公开(公告)日:2021-02-09
申请号:CN201710379309.X
申请日:2017-05-25
申请人: 全球能源互联网研究院有限公司 , 国家电网有限公司 , 国网上海市电力公司
摘要: 数据准确性判定方法、装置、终端及计算机可读存储介质,其中数据准确性判定方法,包括:获取数据集,其中数据集由至少一个表单组成;确定所述表单的类型;根据表单的类型,确定表单的质量判别参数,其中表单的类型对应的质量判别参数预存在质量判别参数库中;根据表单的质量判别参数,计算数据集的判别特征参数,判别特征参数用于判断数据集中数据的准确性;根据判别特征参数判别所述数据集的准确性,解决了现有数据集的数据处理加工过程造成数据被重复计算,降低了判断数据准确性的效率,且使用多种方式对数据的准确性进行评价过程中由于得到不同的判断结果,可能造成多个判断结果相互干扰,影响最终数据判断的准确性。
-
公开(公告)号:CN110647829A
公开(公告)日:2020-01-03
申请号:CN201910864930.4
申请日:2019-09-12
申请人: 全球能源互联网研究院有限公司 , 国网重庆市电力公司电力科学研究院 , 国家电网有限公司 , 国网重庆市电力公司 , 国网上海市电力公司
摘要: 本发明提供了一种票据的文本识别方法及系统,该方法包括:获取票据文本图像;采用目标文本检测模型对票据文本图像进行文本区域检测,生成目标文本图像;采用目标文本识别算法对目标文本图像进行文本识别,生成文本识别结果。通过深度学习神经网络模型对票据文本图像进行检测与识别,本识别方法简单,无需手工提取特征,能够更快速的得到有效的文本检测区域,最终提高整体检测识别效率与精准度,实现图像文本数据的结构化提取和存储,为后续的检测分类提供有效的支撑,进一步提升票据归档分类的电子化和智能化水平。
-
公开(公告)号:CN110119758A
公开(公告)日:2019-08-13
申请号:CN201910258374.6
申请日:2019-04-01
申请人: 全球能源互联网研究院有限公司 , 国网重庆市电力公司电力科学研究院 , 国家电网有限公司 , 国网重庆市电力公司 , 国网上海市电力公司
摘要: 本发明公开一种用电数据异常检测及模型训练方法、装置,该训练模型的方法包括:获取用电设备的训练用电数据,得到训练用电数据集合;提取训练用电数据集合中每个训练用电数据所对应的第一训练特征信息及第二训练特征信息,其中,第一训练特征信息用于指示各用电设备的用电特征,第二训练特征信息用于指示用电数据的分析结果特征;利用第一训练特征信息及第二训练特征信息对神经网络模型进行训练,得到用电数据异常检测模型。通过实施本发明,利用模型预测用电数据预测值,并与观测值求差值,将差值与所选阈值进行比较以判断用电数据是否异常。利用长短期记忆神经网络对用电数据进行预测,增加了数据预测的准确性,处理大规模数据计算效率提高。
-
公开(公告)号:CN110276672A
公开(公告)日:2019-09-24
申请号:CN201910435483.0
申请日:2019-05-23
申请人: 全球能源互联网研究院有限公司 , 国网重庆市电力公司电力科学研究院 , 国家电网有限公司 , 国网重庆市电力公司 , 国网上海市电力公司
摘要: 本发明公开了一种对账方法、装置、设备及计算机可读存储介质,其中对账方法包括:获取第一账目记录表、第二账目记录表和第三账目记录表并进行预处理,将第一账目记录表与第二账目记录表中第一预设字段的字段取值进行匹配,并将匹配成功的字段取值对应的数据样本移出;在剩余的第一账目记录表中筛选出多条数据样本,将多条数据样本的金额相加,得到重组后的金额;将重组后的金额与在第三账目记录表中筛选出的数据样本对应的金额进行匹配。本发明的技术方案,在一次对账过程中可以完成第一账目记录表与第二账目记录表和第三账目记录表两个账目记录表的对账操作,操作简单且匹配成功率高。
-
公开(公告)号:CN108629356B
公开(公告)日:2021-12-21
申请号:CN201710169912.5
申请日:2017-03-21
申请人: 全球能源互联网研究院 , 国网山东省电力公司青岛供电公司 , 国家电网公司
摘要: 本发明提供一种面向用电负荷分类应用的数据存储方法和装置,方法包括选取小波基函数对预处理后的用电负荷数据进行多分辨分解,得到候选特征小波系数集,并对预处理后的用电负荷数据添加标签信息;从候选特征小波系数集中选取特征小波系数,并建立用电负荷数据特征化模型;采用用电负荷数据特征化模型对用电负荷数据进行特征化处理;存储特征化处理后的用户电荷数据。本发明将小波变换的优势应用到用电负荷数据的特征提取中,在对数据进行压缩存储的同时,保持了原有的信息,能够对后续的用电负荷分类等应用带来有力支撑;对特征小波系数的数量进行调整,选取了最优最少的特征小波系数,提高了用电负荷数据特征化的效率。
-
公开(公告)号:CN108470127A
公开(公告)日:2018-08-31
申请号:CN201710099139.X
申请日:2017-02-23
申请人: 全球能源互联网研究院 , 国网山东省电力公司青岛供电公司 , 国家电网公司
摘要: 本发明提供一种用电负荷数据的离线脱敏方法和装置,通过提取用电负荷数据、选择时频变换算法,并根据选择的时频变换算法对提取的用电负荷数据进行脱敏,最后将脱敏后的用电负荷数据进行存储,能够快速高效的完成用电负荷数据离线脱敏。本发明能够从文档、文件、数据库等多种途径选择用电负荷数据,以多种文件格式获取待脱敏的用电负荷数据,并根据数据特性以及提供者对数据敏感性的要求和使用者对数据可用性的要求选择用于脱敏的时频变换算法,确保能够顺利获取待脱敏的用电负荷数据,自由地选择适当的时频变换算法,达到最好的脱敏效果。
-
公开(公告)号:CN108470127B
公开(公告)日:2021-10-29
申请号:CN201710099139.X
申请日:2017-02-23
申请人: 全球能源互联网研究院 , 国网山东省电力公司青岛供电公司 , 国家电网公司
IPC分类号: G06F21/62 , G06F16/25 , G06F16/2458
摘要: 本发明提供一种用电负荷数据的离线脱敏方法和装置,通过提取用电负荷数据、选择时频变换算法,并根据选择的时频变换算法对提取的用电负荷数据进行脱敏,最后将脱敏后的用电负荷数据进行存储,能够快速高效的完成用电负荷数据离线脱敏。本发明能够从文档、文件、数据库等多种途径选择用电负荷数据,以多种文件格式获取待脱敏的用电负荷数据,并根据数据特性以及提供者对数据敏感性的要求和使用者对数据可用性的要求选择用于脱敏的时频变换算法,确保能够顺利获取待脱敏的用电负荷数据,自由地选择适当的时频变换算法,达到最好的脱敏效果。
-
公开(公告)号:CN107679089B
公开(公告)日:2021-10-15
申请号:CN201710790445.8
申请日:2017-09-05
申请人: 全球能源互联网研究院 , 国网浙江省电力公司 , 国家电网公司
IPC分类号: G06F16/215 , G06F16/28 , G06F16/17 , G06F16/182
摘要: 本发明提供一种用于电力传感数据的清洗方法、装置和系统,采用K‑Means聚类法将电力传感数据中的结构化数据聚类为多个分区,对每个分区中的结构化数据进行检测,对检测得到的异常数据进行修复,最终实现异常数据的清洗。本发明采用K‑Means聚类法将电力传感数据中的结构化数据聚类为多个分区的过程中,在对最优簇数量对应的K‑Means聚类的聚类结果再进行聚类时考虑了连续电力传感数据之间的关联等特性,能够发现更多的异常数据,能够有效改善大规模电力传感数据的数据质量;且将电力传感数据的时间特性引入异常数据检测过程,能够识别出在阈值范围内但与邻近点的值存在较大偏差的异常数据。
-
-
-
-
-
-
-
-
-