-
公开(公告)号:CN119514732A
公开(公告)日:2025-02-25
申请号:CN202510062196.5
申请日:2025-01-15
Applicant: 中电科大数据研究院有限公司 , 电子科技大学
Abstract: 本发明提供一种基于反向拍卖的联邦学习激励方法、装置及系统,该方法包括:通过反向拍卖过程确定参与联邦学习的客户端;初始化全局模型,并将所述全局模型分发给各客户端;接收各客户端发送的更新模型密文;根据所述更新模型密文生成新的全局模型;确定各客户端的奖励,将所述奖励发放给对应的客户端。利用本发明方案,不仅可以实现对联邦学习的参与者数据隐私的有效保护,而且可以实现在有限预算下的资源有效分配,有效提升参与者的积极性,提升联邦学习效率。
-
公开(公告)号:CN119357177A
公开(公告)日:2025-01-24
申请号:CN202411920739.4
申请日:2024-12-25
Applicant: 中电科大数据研究院有限公司 , 中国电子科技集团公司第十五研究所
IPC: G06F16/215 , G06F18/2433 , G06F18/15 , G06N5/04
Abstract: 本申请公开了一种基于大模型的数据质量分析报告生成方法、系统、装置及存储介质,生成的质量报告具有深入分析和标准化建议,使得报告内容较为丰富,从而可满足复杂多变的业务需求。本申请方法包括:获取输入数据;对输入的数据进行缺失值、重复数据和异常值处理,以得到预处理数据;将所述预处理数据进行分类,以获取日志类型数据和原始数据;将目标知识库RAG集成于垂直大模型,并对所述垂直大模型进行微调,以获取垂直微调大模型;将所述日志类型数据和所述原始数据输入所述垂直微调大模型;获取所述垂直微调大模型生成的校验规则;在确定所述校验规则符合规则符合要求之后,根据所述校验规则生成高质量分析报告。
-
公开(公告)号:CN117272123B
公开(公告)日:2024-02-27
申请号:CN202311560860.6
申请日:2023-11-22
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/24 , G06N3/0455 , G06F18/23 , G06F18/22
Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。
-
公开(公告)号:CN117236409B
公开(公告)日:2024-02-27
申请号:CN202311529303.8
申请日:2023-11-16
Applicant: 中电科大数据研究院有限公司
IPC: G06N3/084 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048 , G06N3/0475 , G06N3/096 , G06F40/289 , G06F16/35 , G06F18/2415 , G06N3/092
Abstract: 本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质,用于在计算资源与存储空间有限的情况下,在具体的应用场景中提高大模型的应用潜力。本申请实施例小模型训练方法包括:采集目标应用场景的初始样本数据;初始化大模型;将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;使用大模型将标记序列转换为概率分布软标签;将概率分布软标签和对应的输入文本数据进行组合,生成数据集;根据概率分布软标签的维度创建一个循环神经网络模型和损失函数;使用数据集、小模型和损失函数进行训练,生(56)对比文件US 11450225 B1,2022.09.20US 2020387782 A1,2020.12.10US 2022237890 A1,2022.07.28孙璐等.基于自然语言理解的软件产业政策关联性分析技术.电子技术应用.2021,第47卷(第12期),第57-63页.刘文瑶.基于迁移学习的交通标志识别研究.中国优秀硕士学位论文全文数据库 工程科技II辑.2022,(第2期),第C035-171页.Weijiang Fan等.A Framework for MathWord Problem Solving Based on Pre-training Models and Spatial OptimizationStrategies.Computer Supported CooperativeWork and Social Computing.2023,第488-498页.Colin Cherry等.Natural LanguageGeneration for Effective KnowledgeDistillation.Proceedings of the 2ndWorkshop on Deep Learning Approaches forLow-Resource NLP.2019,第202-208页.Chengqiang Lu等.KnowledgeDistillation of Transformer-basedLanguage Models Revisited.arXiv.2022,第1-43页.舒真瀚等.基于知识蒸馏的中文自动语音识别的建模方法.现代计算机.2020,(第8期),第18-22页.
-
公开(公告)号:CN117272123A
公开(公告)日:2023-12-22
申请号:CN202311560860.6
申请日:2023-11-22
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/24 , G06N3/0455 , G06F18/23 , G06F18/22
Abstract: 本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。
-
公开(公告)号:CN117097563B
公开(公告)日:2023-12-19
申请号:CN202311347133.1
申请日:2023-10-18
Applicant: 中电科大数据研究院有限公司
IPC: H04L9/40 , H04L67/1095 , H04L67/101 , H04L45/12 , G06F21/62 , G06F21/60 , G06F11/14 , G06N3/045 , G06N3/092
Abstract: 本发明提供一种面向隐私保护的数据共享方法及系统,属于数据传输技术领域。本发明的一种面向隐私保护的数据共享方法,通过初始路径选择模型来选择路径进行训练得到中间路径选择模型和初始样本集,并从初始样本集中筛选优质的训练数据构成目标样本集来进行强化训练,得到最终的路径选择模型,训练的数据中包含算力节点的状态信息,考虑到了各算力节点的安全属性信息,进而使得路径选择模型可以兼顾到算力节点的安全性,进而得到安全性更强的目标传输路径来传输目标隐私信息,可以进一步提升对目标隐私信息的隐私保护。
-
公开(公告)号:CN117115756A
公开(公告)日:2023-11-24
申请号:CN202311379545.3
申请日:2023-10-24
Applicant: 中电科大数据研究院有限公司
IPC: G06V20/52 , G06V40/10 , G06V40/16 , G06V10/22 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种人员睡觉行为检测方法及系统该方法包括:获取待检测人员的视频帧;利用事物检测模型对所述视频帧进行检测,并利用目标关联决策模型对所述事物检测模型输出的检测结果进行决策,确定所述视频帧中是否有人体;在检测到有人体的情况下,利用事物检测模型确定对应所述人体的人体坐标信息,利用目标跟踪模型确定对应所述人体的唯一身份标识,并利用人脸识别模型确定对应所述人体的人脸坐标信息;根据连续多帧确定的人体坐标信息和人脸坐标信息,确定所述待检测人员的行为。利用本发明方案,可以准确识别工作人员的睡觉行为,提高人体睡觉行为的检测精度。
-
公开(公告)号:CN116127079B
公开(公告)日:2023-06-20
申请号:CN202310425424.1
申请日:2023-04-20
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/216
Abstract: 本发明提供一种文本分类方法,基于待分类文本段的文本特征向量与各个文本类别的支持文本特征向量之间的语义相似度,确定该待分类文本段所属的文本类别,即使部分文本类别的支持文本段数量较少,仍能根据该文本类别的支持文本段的文本特征向量准确地归纳出该文本类别的支持文本特征向量,从而根据上述语义相似度识别出属于该文本类别的待分类文本段,减少多标签分类场景下遗漏类别标签的概率;此外,在进行文本特征提取时,充分运用了对应文本段的语法结构,从而提取更准确、更丰富的上下文信息,以结合各个非停用词本身的语义信息以及上下文语义信息进行整体语义提取,有助于提升政务文本分类的准确性。
-
公开(公告)号:CN112559765B
公开(公告)日:2023-06-16
申请号:CN202011440234.X
申请日:2020-12-11
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/36 , G06F18/214
Abstract: 本发明提供了一种多源异构数据库语义集成方法,包括如下步骤:①抽取实体:基于实体抽取模型从非结构化文本中抽取领域相关实体并识别对应类别;②概念匹配:根据对应类别与知识图谱中本体概念进行匹配,得到同类别的候选实体集合;③邻域匹配:根据相关实体的上下文信息得到对齐实体图表示,根据候选实体集合在知识图谱中的领域关系,得到候选实体图表示;④对比决策:通过对对齐实体图表示和候选实体图表示进行对比决策,得到最匹配候选实体排列作为匹配结果。本发明将深度强化学习技术与多源异构数据库语义集成相结合,建立不同形态下知识之间的语义映射关系,能更好支撑基于语义集成的语义检索、智能问答等相关应用。
-
公开(公告)号:CN115168367A
公开(公告)日:2022-10-11
申请号:CN202211091952.X
申请日:2022-09-07
Applicant: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC: G06F16/22 , G06F16/2457 , G06F16/27 , G06F11/14
Abstract: 本发明涉及信息处理领域,具体公开了一种大数据的数据配置方法和系统,所述方法包括配置名称节点,数据节点和用户端,其中,所述名称节点被配置为中心管理服务器,在数据节点设置为存储节点时,在其存储的主、副分片上通过确认消息的交互完成主、副分片的数据同步,同时设置日志事件信息,满足用户主、副分片数据不一致时信息的传输处理需求,在通过日志事件信息追平情形下,提高了数据处理效率。
-
-
-
-
-
-
-
-
-