-
公开(公告)号:CN109815978A
公开(公告)日:2019-05-28
申请号:CN201811547533.6
申请日:2018-12-18
Applicant: 全球能源互联网研究院有限公司 , 国网山东省电力公司 , 国家电网有限公司
IPC: G06K9/62
Abstract: 本发明公开了样本分级标注及模型训练方法、装置及电子设备,其中所述样本分级标注方法包括:S1:获取样本中的主目标及其所属项目,并获取包含有所述主目标所属项目的分级结构表;S2:将所述主目标所属项目确定为当前项目;S3:判断所述当前项目在所述分级结构表中是否存在下一级子项目;S4:当所述当前项目在所述分级结构表中存在下一级子项目时,则将下一级子项目确定为当前项目,并判断所述样本中是否存在属于所述当前项目的子目标;S5:当所述样本中存在属于所述当前项目的子目标时,则将所述当前项目确定为所述样本的标签之一;继续执行步骤S3;否则直接继续执行步骤S3。通过本发明对样本进行标注不会遗漏尺度很小的目标。
-
公开(公告)号:CN109684309A
公开(公告)日:2019-04-26
申请号:CN201811333857.X
申请日:2018-11-09
Applicant: 全球能源互联网研究院有限公司 , 国网江苏省电力有限公司经济技术研究院 , 国家电网有限公司
IPC: G06F16/215 , G06Q30/02 , G06Q50/06
CPC classification number: G06Q30/0201 , G06Q50/06
Abstract: 本发明公开了一种数据质量评测方法及装置、计算机设备和存储介质,其中,数据质量评测方法包括如下步骤:通过STORM分布式计算框架下的SPOUT组件获取实时数据流;根据预设数据约束规则,对实时数据流中的数据进行标注;当数据符合约束规则时,将数据标注为正常数据,当数据不符合约束规则时,将数据标注为异常数据;将异常数据进行实时存储;将异常数据和正常数据进行分类离线存储。通过STORM分布式计算框架实时获取实时数据流处理平台(如Kafka系统等)中的数据流,并基于约束规则评测数据流中的数据,并分别对符合约束规则的数据和不符合约束规则的数据进行标注,实现了对数据的实时性评价,从而,能够满足对数据进行实时性分析的要求。
-