-
公开(公告)号:CN119357177A
公开(公告)日:2025-01-24
申请号:CN202411920739.4
申请日:2024-12-25
Applicant: 中电科大数据研究院有限公司 , 中国电子科技集团公司第十五研究所
IPC: G06F16/215 , G06F18/2433 , G06F18/15 , G06N5/04
Abstract: 本申请公开了一种基于大模型的数据质量分析报告生成方法、系统、装置及存储介质,生成的质量报告具有深入分析和标准化建议,使得报告内容较为丰富,从而可满足复杂多变的业务需求。本申请方法包括:获取输入数据;对输入的数据进行缺失值、重复数据和异常值处理,以得到预处理数据;将所述预处理数据进行分类,以获取日志类型数据和原始数据;将目标知识库RAG集成于垂直大模型,并对所述垂直大模型进行微调,以获取垂直微调大模型;将所述日志类型数据和所述原始数据输入所述垂直微调大模型;获取所述垂直微调大模型生成的校验规则;在确定所述校验规则符合规则符合要求之后,根据所述校验规则生成高质量分析报告。
-
公开(公告)号:CN119003920A
公开(公告)日:2024-11-22
申请号:CN202411481452.6
申请日:2024-10-23
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/958 , G06F16/951 , G06N3/042 , G06N3/0464
Abstract: 本申请公开了一种网页信息分类方法、装置及存储介质,用于信息分类领域。本申请方法包括:使用Python的Scrapy库从目标网页获取网页中的静态数据;使用Selenium自动化工具从目标网页获取网页的动态数据;基于所述静态数据和所述动态数据构建DOM树形结构;使用XLM‑RoBERTa预训练语言模型对已构建DOM树形结构的所述静态数据和所述动态数据进行向量化,转化为数值向量;将DOM树形结构转换为图结构,并将数值向量输入卷积图神经网络模型中,通过卷积图神经网络模型对图结构进行编码,生成特征向量;将所述特征向量输入预配置的分类模型中进行计算,通过预配置的分类模型对所述静态数据和所述动态数据进行分类。
-
公开(公告)号:CN118211840B
公开(公告)日:2024-08-23
申请号:CN202410639487.1
申请日:2024-05-22
Applicant: 中电科大数据研究院有限公司
Abstract: 本申请公开了一种智慧管网的区域管网安全评估方法及系统,用于降低地下管线的维修成本。本申请区域管网安全评估方法包括:采集管辖区域内的地下管线的空间位置数据;向预定范围内的次智能井盖发送采集指令;接收次智能井盖在各自管辖区域内采集的空间位置数据;根据空间位置数据进行立体绘制,生成地下管线分布地图;采集目标区域内地下管线的井下传感器数据;将井下传感器数据和地下管线历史运行数据进行对比,生成对比结果;根据对比结果显示确定在目标区域中存在异常波动的异常管线;根据地下管线分布地图确定异常管线的相邻管线;根据异常管线的异常波动的状态和相邻管线的井下传感器数据确定的受损管线。
-
公开(公告)号:CN117609751A
公开(公告)日:2024-02-27
申请号:CN202311559810.6
申请日:2023-11-20
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/211 , G06F18/214 , G06F18/21 , G06N3/0442 , G06N3/084
Abstract: 本申请公开了一种基于Flink动态水位线调整的方法及相关设备,用于动态的调整Flink水位线,无需使用人工进行干预,且该策略可以根据具体业务需求进行灵活配置和优化,适应不同业务场景下的数据处理要求,具有通用性,从而提高数据的准确性,可满足不同延迟要求和实际情况下窗口计算结果准确性需求。本申请方法包括:从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;构建初始时间训练模型,所述初始时间训练中内嵌有LSTM时间序列模型;将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;获取多个目标流式时间序列数据。
-
公开(公告)号:CN117391071B
公开(公告)日:2024-02-27
申请号:CN202311639781.4
申请日:2023-12-04
Applicant: 中电科大数据研究院有限公司
IPC: G06F40/258 , G06F40/216 , G06F40/268 , G06F40/284 , G06F16/35
Abstract: 本申请公开了一种新闻话题数据挖掘方法、装置及存储介质,包括:采集新闻发稿量的时序数据,并通过预配置的时间窗口对时序数据进行划分;基于时间窗口的时间刻度,将时序数据转换为一维向量;计算一维向量的一阶差分向量;通过符号函数遍历一阶差分向量,生成趋势向量;从趋势向量的尾部进行遍历,根据预配置的修正规则对趋势向量中的零值进行修正;对修正后的趋势向量进行一阶差分计算,得到二阶差分值;根据二阶差分值对时序数据划分为多个独立的事件群;获取事件群中所有新闻的文本数据;将文本数据转换为TF‑IDF向量;对TF‑IDF向量进行基于密度的文本聚类,得到多个事件新闻群;(56)对比文件Zhang Tingting 等.Multi-dimensiontopic mining based on hierarchicalsemantic graph model《.IEEE access》.2020,第8卷64820-64835.Tang Dan 等.The detection of low-rateDoS attacks using the SADBSCAN algorithm.《Information Sciences》.2021,第565卷229-247.
-
公开(公告)号:CN117272123B
公开(公告)日:2024-02-27
申请号:CN202311560860.6
申请日:2023-11-22
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/24 , G06N3/0455 , G06F18/23 , G06F18/22
Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。
-
公开(公告)号:CN117453677A
公开(公告)日:2024-01-26
申请号:CN202311607734.1
申请日:2023-11-27
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/215 , G06F16/25 , G06N3/0464 , G06N3/08
Abstract: 本申请揭示了一种基于大数据的存储计算平台,包括数据源管理层、数据资源池、数据处理层以及数据服务层。数据管理层负责接入和采集数据,数据资源池进行数据感知分类,数据处理层将接入的数据分类为结构化、非结构化和半结构化,并进行离线和实时数据处理。实时数据处理使用Flink计算引擎,数据处理层包括数据源组件、数据ETL组件和数据输出组件,数据源组件采集Kafka消息队列数据,数据ELT组件使用可自定义的FlinkSQL,数据输出组件以Hbase为数据仓库。数据处理层还包括数据检测单元,用于异常检测,包括数据加载模块、数据时间序列化模块和神经网络模块,神经网络模块配置有目标卷积神经网络模型,该模型中包含L2正则化项和Dropout项,这两项位于同一层或不同层。
-
公开(公告)号:CN117272123A
公开(公告)日:2023-12-22
申请号:CN202311560860.6
申请日:2023-11-22
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/24 , G06N3/0455 , G06F18/23 , G06F18/22
Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。
-
公开(公告)号:CN117115756A
公开(公告)日:2023-11-24
申请号:CN202311379545.3
申请日:2023-10-24
Applicant: 中电科大数据研究院有限公司
IPC: G06V20/52 , G06V40/10 , G06V40/16 , G06V10/22 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种人员睡觉行为检测方法及系统该方法包括:获取待检测人员的视频帧;利用事物检测模型对所述视频帧进行检测,并利用目标关联决策模型对所述事物检测模型输出的检测结果进行决策,确定所述视频帧中是否有人体;在检测到有人体的情况下,利用事物检测模型确定对应所述人体的人体坐标信息,利用目标跟踪模型确定对应所述人体的唯一身份标识,并利用人脸识别模型确定对应所述人体的人脸坐标信息;根据连续多帧确定的人体坐标信息和人脸坐标信息,确定所述待检测人员的行为。利用本发明方案,可以准确识别工作人员的睡觉行为,提高人体睡觉行为的检测精度。
-
公开(公告)号:CN116069938B
公开(公告)日:2023-06-20
申请号:CN202310354256.1
申请日:2023-04-06
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/30
Abstract: 本发明提供一种文本关联性分析方法,包括:在判断接收到关联性分析数据后,初始化关联性分析插件,根据关联性分析数据对所述关联性分析插件进行配置,得到关联性分析插件的第一关联词语、第二关联词语以及关联分析函数;提取第一目标分析语句中的第一待分析词语,第一待分析词语包括第一数量词;提取第二目标分析语句中的第二待分析词语,第二待分析词语包括第二数量词;关联性分析插件根据所述关联分析函数、第一数量词生成至少一个标准关联区间,若所述第二数量词位于所述标准关联区间内,则输出正常关联提醒信息;若第二数量词不位于所述标准关联区间内,则根据所述关联分析函数的属性确定异常类型,输出异常关联提醒信息及异常类型。
-
-
-
-
-
-
-
-
-