-
公开(公告)号:CN107317865B
公开(公告)日:2019-11-05
申请号:CN201710521896.1
申请日:2017-06-30
Applicant: 中国科学院信息工程研究所
IPC: H04L29/08
Abstract: 本发明公开了一种通用的离线数据接入方法及系统,基于离线数据接入通用处理模板,来适配多种业务数据接入。具有如下优点:1)数据接入与业务耦合度低,数据接入系统更为通用,音视频数据、图片数据、博客数据、即时通信数据等数据源,都可以采用该方法及系统;2)多节点分布式采集数据,在保证数据正确传输的前提下,提供传输的并行度和传输效率,并实现了负载均衡;3)提供完善的异常处理和报错机制;4)实时监控系统运行状态,系统更为稳定。
-
公开(公告)号:CN119891154A
公开(公告)日:2025-04-25
申请号:CN202411761457.4
申请日:2024-12-03
Applicant: 中国科学院信息工程研究所 , 中国电力科学研究院有限公司 , 国网福建省电力有限公司 , 国家电网有限公司
IPC: H02J3/00 , H02J3/06 , H02J3/14 , G06Q10/0637 , G06Q50/06 , G06N3/0442 , G06N3/09
Abstract: 本发明属于信息技术领域,涉及一种基于混合专家模型的超短期负荷预测方法和系统。该方法包括:构建学习负荷时段对负荷影响模式的专家模型,称为时间效应专家子模型;构建学习负荷的短期波动特性的专家模型,称为波动效应专家子模型;通过门控机制整合时间效应专家子模型和波动效应专家子模型的输出,得到超短期负荷预测结果。与当前最新的超短期负荷预测方法相比,本发明提出的基于混合专家模型的超短期负荷预测模型的预测精度更优,整体的训练时间更短、成本更低,而且各个专家子模型能够并行训练,大大缩短了预测周期。本发明的MOE‑EL框架具有很强的可扩展性,现有负荷预测模型能够很快的加入MOE‑EL框架中,提升超短期负荷预测性能。
-
公开(公告)号:CN115016928A
公开(公告)日:2022-09-06
申请号:CN202210431141.3
申请日:2022-04-22
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于算子作用域动态感知的弹性资源分配方法及装置。所述方法包括:构建数据流处理应用的有向无环图,所述有向无环图中的节点表示处理数据流的算子,边表示数据流;根据算子的静态筛选率指标和动态筛选率统计指标来评估上游算子的作用域,自适应地将有向无环图进行分区。预测每个分区未来一段时间的负载;针对每个所述分区中的各算子,基于所述负载生成相应数量的算子实例,以对所述接收数据进行实时处理,满足服务质量要求。本发明以分区为单位规划算子的并行性,从而保证端到端处理延迟,提升资源利用率。
-
公开(公告)号:CN107341135B
公开(公告)日:2019-11-05
申请号:CN201710372929.0
申请日:2017-05-24
Applicant: 中国科学院信息工程研究所
IPC: G06F17/22
Abstract: 本发明公开了一种面向通用文本格式的解析方法及工具。本方法为:1)对于一待解析数据a,首先将其对应的各种自定义符号导入解析工具中,然后采用指定的文件编码格式读取该待解析数据a;自定义符号包括行分隔符、字段包围符和字段间分隔符;2)解析工具将解析数据a中的自定义符号统一转换文字符串类型;3)解析工具逐个分析所读取的字符,如果该字符及其后面n个字符组成的字符串与行分隔符一致,则根据行分隔符将待解析数据a分割成行数据;4)解析工具分析得到的行数据,根据字段包围符解析出行数据中所有的记录;5)解析工具逐个分析得到的每个记录,根据字段间分隔符解析出每条记录中所有的字段。本发明大大提高了解析效率。
-
公开(公告)号:CN105468298B
公开(公告)日:2018-11-13
申请号:CN201510802190.3
申请日:2015-11-19
Applicant: 中国科学院信息工程研究所
IPC: G06F3/06
Abstract: 本发明公开了一种基于日志结构合并树的键值存储方法。本方法为:1)为每一数据存储组件在内存中设置一缓存组件,并对每一缓存组件设置一布隆过滤器;为每个SSTable的每一数据块设置一布隆过滤器;2)对于待合并的数据存储组件Ci,采用布隆过滤器逐级对Ci当前数据块的每一键值对进行跳转判断:若跳跃至Ci+M,则Ci+M及其之前各级组件中没有对应键任何版本的键值对,而Bi+M+1中包含对应版本的键值对;然后将该键值对置于Bi+M中;若跳跃至Bi+N,则Bi+N及其之前各级组件中没有对应键任何版本的键值对,而Ci+N中包含对应版本的键值对;3)对于Bi中待合并的键值对采用相似方法进行处理。
-
公开(公告)号:CN108021540A
公开(公告)日:2018-05-11
申请号:CN201711095981.2
申请日:2017-11-09
Applicant: 中国科学院信息工程研究所
IPC: G06F17/22
CPC classification number: G06F17/2217
Abstract: 本发明公开了一种面向Hadoop的通用文本格式的解析方法及工具。本方法为:1)对于一待解析的文件,将该文件对应的自定义的行分隔符、字段间分隔符和字段包围符保存到Hadoop系统中;2)Hadoop系统判断该文件是否可分割,若该文件可分割,则将该文件分割为多个块,然后进行步骤3);否则直接进行步骤3);3)Hadoop系统根据所述行分隔符解析出该文件的每行数据,然后根据所述字段包围符解析出每条记录包含的所有行数据;然后根据所述字段间分隔符和字段包围符,解析出每条记录中所有的字段。本发明能够根据自定义的符号解析出分布式环境中输入文件的每条记录所有字段,满足了自定义文件的解析要求。
-
公开(公告)号:CN107317865A
公开(公告)日:2017-11-03
申请号:CN201710521896.1
申请日:2017-06-30
Applicant: 中国科学院信息工程研究所
IPC: H04L29/08
Abstract: 本发明公开了一种通用的离线数据接入方法及系统,基于离线数据接入通用处理模板,来适配多种业务数据接入。具有如下优点:1)数据接入与业务耦合度低,数据接入系统更为通用,音视频数据、图片数据、博客数据、即时通信数据等数据源,都可以采用该方法及系统;2)多节点分布式采集数据,在保证数据正确传输的前提下,提供传输的并行度和传输效率,并实现了负载均衡;3)提供完善的异常处理和报错机制;4)实时监控系统运行状态,系统更为稳定。
-
公开(公告)号:CN116910467A
公开(公告)日:2023-10-20
申请号:CN202310691596.3
申请日:2023-06-12
Applicant: 中国科学院信息工程研究所
IPC: G06F18/20 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种面向复杂混部扰动的在线运行时环境预测方法及装置,该方法包括:针对训练集中的算子,分别收集每一算子和多个算子在空节点上运行时的环境关键指标Ts和环境关键指标Tm;基于该关键指标Ts和环境关键指标Tm,分别建立算子的算子画像和多个算子的画像;基于算子的算子画像和多个算子的画像,训练环境预测模型;获取待检测的混部算子中每一算子的算子画像,并将每一算子的算子画像输入训练后的环境预测模型,以得到待检测的混部算子在空节点上运行时的环境关键指标。本发明可以实时恶意流量检测,有效缓解、过滤和防御针对恶意流量的攻击。本发明能够准确预测复杂混部算子运行时环境。
-
公开(公告)号:CN108021540B
公开(公告)日:2023-05-02
申请号:CN201711095981.2
申请日:2017-11-09
Applicant: 中国科学院信息工程研究所
IPC: G06F40/126
Abstract: 本发明公开了一种面向Hadoop的通用文本格式的解析方法及工具。本方法为:1)对于一待解析的文件,将该文件对应的自定义的行分隔符、字段间分隔符和字段包围符保存到Hadoop系统中;2)Hadoop系统判断该文件是否可分割,若该文件可分割,则将该文件分割为多个块,然后进行步骤3);否则直接进行步骤3);3)Hadoop系统根据所述行分隔符解析出该文件的每行数据,然后根据所述字段包围符解析出每条记录包含的所有行数据;然后根据所述字段间分隔符和字段包围符,解析出每条记录中所有的字段。本发明能够根据自定义的符号解析出分布式环境中输入文件的每条记录所有字段,满足了自定义文件的解析要求。
-
公开(公告)号:CN107341135A
公开(公告)日:2017-11-10
申请号:CN201710372929.0
申请日:2017-05-24
Applicant: 中国科学院信息工程研究所
IPC: G06F17/22
Abstract: 本发明公开了一种面向通用文本格式的解析方法及工具。本方法为:1)对于一待解析数据a,首先将其对应的各种自定义符号导入解析工具中,然后采用指定的文件编码格式读取该待解析数据a;自定义符号包括行分隔符、字段包围符和字段间分隔符;2)解析工具将解析数据a中的自定义符号统一转换文字符串类型;3)解析工具逐个分析所读取的字符,如果该字符及其后面n个字符组成的字符串与行分隔符一致,则根据行分隔符将待解析数据a分割成行数据;4)解析工具分析得到的行数据,根据字段包围符解析出行数据中所有的记录;5)解析工具逐个分析得到的每个记录,根据字段间分隔符解析出每条记录中所有的字段。本发明大大提高了解析效率。
-
-
-
-
-
-
-
-
-