-
公开(公告)号:CN117609751A
公开(公告)日:2024-02-27
申请号:CN202311559810.6
申请日:2023-11-20
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/211 , G06F18/214 , G06F18/21 , G06N3/0442 , G06N3/084
Abstract: 本申请公开了一种基于Flink动态水位线调整的方法及相关设备,用于动态的调整Flink水位线,无需使用人工进行干预,且该策略可以根据具体业务需求进行灵活配置和优化,适应不同业务场景下的数据处理要求,具有通用性,从而提高数据的准确性,可满足不同延迟要求和实际情况下窗口计算结果准确性需求。本申请方法包括:从流式数据源中采集目标数据集合,所述目标数据集合中包含有多个流式时间序列数据;构建初始时间训练模型,所述初始时间训练中内嵌有LSTM时间序列模型;将所述目标数据集合输入所述初始时间训练模型中训练并生成目标时间训练模型;获取多个目标流式时间序列数据。
-
公开(公告)号:CN117391071B
公开(公告)日:2024-02-27
申请号:CN202311639781.4
申请日:2023-12-04
Applicant: 中电科大数据研究院有限公司
IPC: G06F40/258 , G06F40/216 , G06F40/268 , G06F40/284 , G06F16/35
Abstract: 本申请公开了一种新闻话题数据挖掘方法、装置及存储介质,包括:采集新闻发稿量的时序数据,并通过预配置的时间窗口对时序数据进行划分;基于时间窗口的时间刻度,将时序数据转换为一维向量;计算一维向量的一阶差分向量;通过符号函数遍历一阶差分向量,生成趋势向量;从趋势向量的尾部进行遍历,根据预配置的修正规则对趋势向量中的零值进行修正;对修正后的趋势向量进行一阶差分计算,得到二阶差分值;根据二阶差分值对时序数据划分为多个独立的事件群;获取事件群中所有新闻的文本数据;将文本数据转换为TF‑IDF向量;对TF‑IDF向量进行基于密度的文本聚类,得到多个事件新闻群;(56)对比文件Zhang Tingting 等.Multi-dimensiontopic mining based on hierarchicalsemantic graph model《.IEEE access》.2020,第8卷64820-64835.Tang Dan 等.The detection of low-rateDoS attacks using the SADBSCAN algorithm.《Information Sciences》.2021,第565卷229-247.
-
公开(公告)号:CN117272123B
公开(公告)日:2024-02-27
申请号:CN202311560860.6
申请日:2023-11-22
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/24 , G06N3/0455 , G06F18/23 , G06F18/22
Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。
-
公开(公告)号:CN117453677A
公开(公告)日:2024-01-26
申请号:CN202311607734.1
申请日:2023-11-27
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/215 , G06F16/25 , G06N3/0464 , G06N3/08
Abstract: 本申请揭示了一种基于大数据的存储计算平台,包括数据源管理层、数据资源池、数据处理层以及数据服务层。数据管理层负责接入和采集数据,数据资源池进行数据感知分类,数据处理层将接入的数据分类为结构化、非结构化和半结构化,并进行离线和实时数据处理。实时数据处理使用Flink计算引擎,数据处理层包括数据源组件、数据ETL组件和数据输出组件,数据源组件采集Kafka消息队列数据,数据ELT组件使用可自定义的FlinkSQL,数据输出组件以Hbase为数据仓库。数据处理层还包括数据检测单元,用于异常检测,包括数据加载模块、数据时间序列化模块和神经网络模块,神经网络模块配置有目标卷积神经网络模型,该模型中包含L2正则化项和Dropout项,这两项位于同一层或不同层。
-
公开(公告)号:CN117272123A
公开(公告)日:2023-12-22
申请号:CN202311560860.6
申请日:2023-11-22
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/24 , G06N3/0455 , G06F18/23 , G06F18/22
Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。
-
公开(公告)号:CN117115756A
公开(公告)日:2023-11-24
申请号:CN202311379545.3
申请日:2023-10-24
Applicant: 中电科大数据研究院有限公司
IPC: G06V20/52 , G06V40/10 , G06V40/16 , G06V10/22 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种人员睡觉行为检测方法及系统该方法包括:获取待检测人员的视频帧;利用事物检测模型对所述视频帧进行检测,并利用目标关联决策模型对所述事物检测模型输出的检测结果进行决策,确定所述视频帧中是否有人体;在检测到有人体的情况下,利用事物检测模型确定对应所述人体的人体坐标信息,利用目标跟踪模型确定对应所述人体的唯一身份标识,并利用人脸识别模型确定对应所述人体的人脸坐标信息;根据连续多帧确定的人体坐标信息和人脸坐标信息,确定所述待检测人员的行为。利用本发明方案,可以准确识别工作人员的睡觉行为,提高人体睡觉行为的检测精度。
-
公开(公告)号:CN116069938B
公开(公告)日:2023-06-20
申请号:CN202310354256.1
申请日:2023-04-06
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/30
Abstract: 本发明提供一种文本关联性分析方法,包括:在判断接收到关联性分析数据后,初始化关联性分析插件,根据关联性分析数据对所述关联性分析插件进行配置,得到关联性分析插件的第一关联词语、第二关联词语以及关联分析函数;提取第一目标分析语句中的第一待分析词语,第一待分析词语包括第一数量词;提取第二目标分析语句中的第二待分析词语,第二待分析词语包括第二数量词;关联性分析插件根据所述关联分析函数、第一数量词生成至少一个标准关联区间,若所述第二数量词位于所述标准关联区间内,则输出正常关联提醒信息;若第二数量词不位于所述标准关联区间内,则根据所述关联分析函数的属性确定异常类型,输出异常关联提醒信息及异常类型。
-
公开(公告)号:CN119513674B
公开(公告)日:2025-05-13
申请号:CN202510089450.0
申请日:2025-01-21
Applicant: 中电科大数据研究院有限公司 , 中电科新型智慧城市研究院有限公司
IPC: G06F18/24 , G06F18/213 , G06F18/22
Abstract: 本申请公开了一种基于特征向量匹配的数据识别方法、装置及存储介质。包括:获取待检测数据,分词生成特征向量;通过矩阵运算计算待匹配特征向量与预定义核心数据特征向量的欧氏距离,统计匹配数量;根据描述信息、表描述信息和字段描述信息的权重(分别为0.2、0.5、0.3),计算数据权重值;结合匹配结果和数据规模,通过加权计算得到待检测数据属于核心或重要数据的概率值;判断概率值是否超过阈值,若超过,则识别为核心或重要数据。本方法依托可信执行环境TEE实现特征向量的提取、匹配及计算,避免待检测数据和核心数据特征库暴露。确保计算过程的真实性和可信性。TEE相对其他隐私计算技术,具有额外计算少的优点,可以提升算法匹配效率。
-
公开(公告)号:CN119357177B
公开(公告)日:2025-04-15
申请号:CN202411920739.4
申请日:2024-12-25
Applicant: 中电科大数据研究院有限公司 , 中国电子科技集团公司第十五研究所
IPC: G06F16/215 , G06F18/2433 , G06F18/15 , G06N5/04
Abstract: 本申请公开了一种基于大模型的数据质量分析报告生成方法、系统、装置及存储介质,生成的质量报告具有深入分析和标准化建议,使得报告内容较为丰富,从而可满足复杂多变的业务需求。本申请方法包括:获取输入数据;对输入的数据进行缺失值、重复数据和异常值处理,以得到预处理数据;将所述预处理数据进行分类,以获取日志类型数据和原始数据;将目标知识库RAG集成于垂直大模型,并对所述垂直大模型进行微调,以获取垂直微调大模型;将所述日志类型数据和所述原始数据输入所述垂直微调大模型;获取所述垂直微调大模型生成的校验规则;在确定所述校验规则符合规则符合要求之后,根据所述校验规则生成高质量分析报告。
-
公开(公告)号:CN119557424A
公开(公告)日:2025-03-04
申请号:CN202510068377.9
申请日:2025-01-16
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/334 , G06F16/34 , G06F40/284 , G06F40/30 , G06F40/205 , G06N3/042 , G06N3/0464 , G06N3/09
Abstract: 本申请公开了一种数据分析方法、系统以及存储介质,用于自然语言处理领域。本申请方法包括:获取用户输入的自然语言;构建一个将所述自然语言转换为语义查询语句的语义数据模型;将所述语义数据模型结合自定义规则构建语义解析器;将所述自然语言输入所述语义解析器进行解析,以获取语义查询语句;将所述语义查询语句输入语义修正器进行修正,以获取目标语义查询语句;通过语义翻译器将所述目标语义查询语句转换为结构化查询语句;将所述结构化查询语句输入所述数据库进行查询,以获取查询结果。
-
-
-
-
-
-
-
-
-