-
公开(公告)号:CN107622121A
公开(公告)日:2018-01-23
申请号:CN201710872848.7
申请日:2017-09-25
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明实施例提供了一种基于位图数据结构的数据分析方法及装置,该方法包括:获得主节点分配的第一事务子集合;获得总数目及排序;根据排序确定每一目标项目的位图数据;统计每一目标项目的位图数据中第一数据与总数目之间的比例,根据统计的比例确定目标项目中的频繁1项集;将为频繁1项集的目标项目和为频繁1项集的目标项目的位图数据,广播至主节点和其他分布式子节点;接收统计项目和统计项目的位图数据;基于接收到的统计项目、统计项目的位图数据和为频繁1项集的目标项目的位图数据,计算目标项集是否为频繁项集;若目标项集为频繁项集,确定目标项集中各个项目之间的关联规则。这样,可以快速地得到关联规则以及项目之间的关联关系。
-
公开(公告)号:CN108021679A
公开(公告)日:2018-05-11
申请号:CN201711288010.X
申请日:2017-12-07
Applicant: 国网山东省电力公司电力科学研究院 , 北京邮电大学 , 国家电网公司
Abstract: 本发明公开了一种并行化的电力设备缺陷文本分类方法,将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;将获取的缺陷案例和词向量进行向量化表示,将缺陷案例进行文本表示,形成矩阵;将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。
-
公开(公告)号:CN107992597A
公开(公告)日:2018-05-04
申请号:CN201711325919.8
申请日:2017-12-13
Applicant: 国网山东省电力公司电力科学研究院 , 北京邮电大学 , 国家电网公司
Abstract: 本发明公开了一种面向电网故障案例的文本结构化方法;对非结构化文本进行命名实体识别,并构建面向电网领域的实体字典来辅助实体识别和文本分词;提取属性值以及描述各属性的状态量,状态量按照类型分为数字型状态量和非数字型状态量,基于规则的方法来提取并对数字型状态量修饰属性进行匹配;将非数字型状态量进行细化,划分为基于词组形式的状态量和基于句子形式的状态量,分别提取其修饰的属性;根据识别出的属性以及对应的状态量,最终生成若干由属性和对应状态量形成的二元组,完成文本结构化。
-
公开(公告)号:CN107423344A
公开(公告)日:2017-12-01
申请号:CN201710344719.0
申请日:2017-05-16
Abstract: 本发明实施例提供了一种输变电设备状态数据的可视化方法及装置,应用于终端设备,方法包括:获取输变电设备状态数据中的文本数据、多维数据和地理数据;确定文本数据中的关键词,并确定各关键词的权重值,根据权重值的大小对各关键词进行可视化;确定多维数据的第一维度数N,将多维数据排列成N维队列,对N维队列中的数据进行可视化;确定地理数据的第二维度数M,确定M维属性信息一一对应的M个视图,在目标视图中对地理数据中的目标属性信息的数据进行可视化。本发明实施例按照数据属性信息的关联性对输变电设备状态数据分类,得到文本数据、多维数据和地理数据,然后分别对三者进行可视化,能够具体、全面的描述输变电设备的运行状态。
-
公开(公告)号:CN107992597B
公开(公告)日:2020-08-18
申请号:CN201711325919.8
申请日:2017-12-13
Applicant: 国网山东省电力公司电力科学研究院 , 北京邮电大学 , 国家电网公司
IPC: G06F16/25 , G06F16/36 , G06F40/295 , G06Q10/00 , G06Q50/06
Abstract: 本发明公开了一种面向电网故障案例的文本结构化方法;对非结构化文本进行命名实体识别,并构建面向电网领域的实体字典来辅助实体识别和文本分词;提取属性值以及描述各属性的状态量,状态量按照类型分为数字型状态量和非数字型状态量,基于规则的方法来提取并对数字型状态量修饰属性进行匹配;将非数字型状态量进行细化,划分为基于词组形式的状态量和基于句子形式的状态量,分别提取其修饰的属性;根据识别出的属性以及对应的状态量,最终生成若干由属性和对应状态量形成的二元组,完成文本结构化。
-
公开(公告)号:CN107622121B
公开(公告)日:2020-06-23
申请号:CN201710872848.7
申请日:2017-09-25
Applicant: 北京邮电大学
IPC: G06F16/2458
Abstract: 本发明实施例提供了一种基于位图数据结构的数据分析方法及装置,该方法包括:获得主节点分配的第一事务子集合;获得总数目及排序;根据排序确定每一目标项目的位图数据;统计每一目标项目的位图数据中第一数据与总数目之间的比例,根据统计的比例确定目标项目中的频繁1项集;将为频繁1项集的目标项目和为频繁1项集的目标项目的位图数据,广播至主节点和其他分布式子节点;接收统计项目和统计项目的位图数据;基于接收到的统计项目、统计项目的位图数据和为频繁1项集的目标项目的位图数据,计算目标项集是否为频繁项集;若目标项集为频繁项集,确定目标项集中各个项目之间的关联规则。这样,可以快速地得到关联规则以及项目之间的关联关系。
-
公开(公告)号:CN107423344B
公开(公告)日:2020-03-13
申请号:CN201710344719.0
申请日:2017-05-16
Abstract: 本发明实施例提供了一种输变电设备状态数据的可视化方法及装置,应用于终端设备,方法包括:获取输变电设备状态数据中的文本数据、多维数据和地理数据;确定文本数据中的关键词,并确定各关键词的权重值,根据权重值的大小对各关键词进行可视化;确定多维数据的第一维度数N,将多维数据排列成N维队列,对N维队列中的数据进行可视化;确定地理数据的第二维度数M,确定M维属性信息一一对应的M个视图,在目标视图中对地理数据中的目标属性信息的数据进行可视化。本发明实施例按照数据属性信息的关联性对输变电设备状态数据分类,得到文本数据、多维数据和地理数据,然后分别对三者进行可视化,能够具体、全面的描述输变电设备的运行状态。
-
-
-
-
-
-