-
公开(公告)号:CN119357754A
公开(公告)日:2025-01-24
申请号:CN202411911075.5
申请日:2024-12-24
Applicant: 北京市大数据中心 , 数据堂(北京)科技股份有限公司
IPC: G06F18/24 , G06N3/0455 , G06N3/098
Abstract: 本申请公开了一种联邦数据管控下的基于规则对齐的激励方法及装置,其首先指定联邦数据管控规则,同时从第一联邦节点和第二联邦节点获取用户的行为数据,并采用基于深度学习的数据处理技术对用户行为数据进行时序分析,以分别捕捉到第一联邦节点和第二联邦节点的用户行为特征,进而,通过将第一联邦节点用户行为特征和第二联邦节点用户行为特征分别与联邦数据管控规则进行语义关联分析,从而智能确定联邦节点的激励结果。这样,通过量化用户行为与联邦数据管控规则的一致性来调整联邦学习过程中各节点的权重分配,实现了对联邦学习参与者的公平激励,能够有效促进联邦学习环境中数据资源的高效利用,提高联邦学习的整体性能和隐私性。
-
公开(公告)号:CN119357754B
公开(公告)日:2025-04-08
申请号:CN202411911075.5
申请日:2024-12-24
Applicant: 北京市大数据中心 , 数据堂(北京)科技股份有限公司
IPC: G06F18/24 , G06N3/0455 , G06N3/098
Abstract: 本申请公开了一种联邦数据管控下的基于规则对齐的激励方法及装置,其首先指定联邦数据管控规则,同时从第一联邦节点和第二联邦节点获取用户的行为数据,并采用基于深度学习的数据处理技术对用户行为数据进行时序分析,以分别捕捉到第一联邦节点和第二联邦节点的用户行为特征,进而,通过将第一联邦节点用户行为特征和第二联邦节点用户行为特征分别与联邦数据管控规则进行语义关联分析,从而智能确定联邦节点的激励结果。这样,通过量化用户行为与联邦数据管控规则的一致性来调整联邦学习过程中各节点的权重分配,实现了对联邦学习参与者的公平激励,能够有效促进联邦学习环境中数据资源的高效利用,提高联邦学习的整体性能和隐私性。
-
公开(公告)号:CN120013021A
公开(公告)日:2025-05-16
申请号:CN202510487010.0
申请日:2025-04-18
Applicant: 北京市大数据中心 , 中国电信股份有限公司北京分公司 , 北京邮电大学
IPC: G06Q10/04 , G06Q50/26 , G06F18/213 , G06F18/25 , G06F21/60 , G06F21/62 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/098 , G06F123/02
Abstract: 本发明涉及流量预测技术领域,具体涉及一种基于多方纵向联邦学习的人群流量预测方法及系统,具体如下:多方数据持有方进行本地特征编码,对时空流量数据持有方的时空人群流量数据进行时空特征编码,对外部因素数据持有方的外部因素数据进行外部因素特征编码,然后通过隐私保护分布式联合建模对各方编码后的特征进行加密和差分隐私保护,然后将经过加密和隐私保护后的加密特征传输至可信第三方的全局模块,最后对第三方的全局模块加密特征进行解密,根据解密后的特征进行人群流量预测,并对各数据持有方的本地模型进行更新。能够在保证数据隐私安全的前提下,利用时空流量数据与外部因素的跨域协同,有效解决分散数据源的移动人群流量的预测问题。
-
公开(公告)号:CN119378554A
公开(公告)日:2025-01-28
申请号:CN202411942602.9
申请日:2024-12-27
Applicant: 北京市大数据中心
IPC: G06F40/295 , G06F40/16 , G06F40/289
Abstract: 本发明属于命名实体识别技术领域,具体涉及一种基于深度学习的实体标注与识别方法及装置,所述方法包括:获取训练文本并采用BIO标注法对训练文本进行标注;将标注好的训练文本进行处理;将处理后的文本输入预训练好的BERT‑CRF模型,完成模型在命名实体识别上的微调;将待识别的文本A输入微调后的BERT‑CRF模型得到各类别的实体集合;利用训练好的LDA模型对待识别的文本A进行主题分析,得到文本A的主题以及所述主题下概率大于设定值的关键词;对所述的各类别的实体集合进行核验,将集合中与主体和关键词不匹配的实体进行修正。能够对实体进行人工的修正,提升了命名实体识别的准确率。
-
公开(公告)号:CN119418142B
公开(公告)日:2025-05-16
申请号:CN202510026855.X
申请日:2025-01-08
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
Abstract: 本申请公开了一种基于深度学习的多模态数据特征处理方法、系统及介质,主要涉及多模态数据技术领域,用以解决由于传统技术无法识别多种类型的数据图像,进而无法在用户查找数据时提供多类型数据图像的问题。包括:获取各个类型的数据图像,将数据图像转化为结构化数据,确定对应的特征提取算法,获得特征数据;根据对齐因子,获取同属于相同对齐因子的特征数据,拼接成一个特征向量,获得降维后的数据矩阵;通过降维后的数据矩阵和对应的标签数据,训练预设深度学习模型;根据用户检索信息对应的降维后的数据矩阵;将降维后的数据矩阵作为训练好的预设深度学习模型的输入,获得标签数据;进而获取标签数据对应的各个类型的数据图像。
-
公开(公告)号:CN119418142A
公开(公告)日:2025-02-11
申请号:CN202510026855.X
申请日:2025-01-08
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
Abstract: 本申请公开了一种基于深度学习的多模态数据特征处理方法、系统及介质,主要涉及多模态数据技术领域,用以解决由于传统技术无法识别多种类型的数据图像,进而无法在用户查找数据时提供多类型数据图像的问题。包括:获取各个类型的数据图像,将数据图像转化为结构化数据,确定对应的特征提取算法,获得特征数据;根据对齐因子,获取同属于相同对齐因子的特征数据,拼接成一个特征向量,获得降维后的数据矩阵;通过降维后的数据矩阵和对应的标签数据,训练预设深度学习模型;根据用户检索信息对应的降维后的数据矩阵;将降维后的数据矩阵作为训练好的预设深度学习模型的输入,获得标签数据;进而获取标签数据对应的各个类型的数据图像。
-
公开(公告)号:CN120045633A
公开(公告)日:2025-05-27
申请号:CN202510525900.6
申请日:2025-04-25
Applicant: 北京市大数据中心 , 中国电信股份有限公司北京分公司 , 北京邮电大学
IPC: G06F16/29 , G06F16/28 , G06F18/2321 , G06N3/0455 , G06N3/084 , G06N3/0464 , G06N3/045 , G06N3/0499
Abstract: 本发明涉及一种基于空间网格编码和大语言模型的时空数据预测方法,属于人工智能与时空数据分析领域。其包括以下步骤:根据地理区域的空间范围,将区域划分为网格单元,并采用编码方法对网格单元进行处理,每个单元通过唯一标识符进行标识;基于用户的停留记录,构建时空依赖模型,将每次停留表示为元组,通过分析历史停留序列和上下文停留序列,预测用户的下一个位置;结合大语言模型,设计时空指令优化提示模板,通过引入网格编码和上下文感知推理,指导模型分析历史数据和上下文数据,生成下一个位置预测,并为每个预测提供解释。本发明通过网格编码和层次化建模,增强模型泛化能力,实现精准时空行为预测。
-
公开(公告)号:CN119357378A
公开(公告)日:2025-01-24
申请号:CN202411301360.5
申请日:2024-09-18
Applicant: 北京市大数据中心
IPC: G06F16/335 , G06F40/279 , G06F18/214 , G06N3/0499 , G06N3/096
Abstract: 本发明属于企业关系抽取技术领域,具体提供一种基于领域自适应的迁移学习实体关系抽取方法、装置、设备及存储介质,所述方法包括:选择一个或多个源领域;采用深度学习模型在选定的源领域上进行预训练,学习源领域内的已标注企业关系数据集;选择具有未标注或部分标注的企业关系数据的目标领域,使用领域自适应算法调整预训练的模型参数,适应目标领域的数据特征和分布;在完成目标领域数据特征和分布的领域适应后,部署迁移学习算法对调整后的深度学习模型进行微调;验证微调后深度学习模型在目标领域的性能;在目标领域中应用经过微调的深度学习模型识别和抽取文本中的企业关系及其关系。确保了抽取的企业关系及其关系数据的高质量和一致性。
-
公开(公告)号:CN119358667A
公开(公告)日:2025-01-24
申请号:CN202411302658.8
申请日:2024-09-18
Applicant: 北京市大数据中心
IPC: G06N5/04 , G06N5/022 , G06N3/0442 , G06N3/0464 , G06N3/08 , G06F40/295 , G06F40/30
Abstract: 本发明提供一种知识推理与关系生成方法、装置、设备及存储介质,属于城市级多源数据处理技术领域,收集城市运行管理的各领域数据;提取数据治理后各类数据中的文本特征;识别文本特征中的实体;抽取文本特征中实体之间的关系,将识别的实体以及抽取的实体之间的关系存储到图数据库,形成初始知识图谱;利用预设的知识推理引擎,生成治理后各领域数据对应新的实体与关系;基于新的实体与关系更新所述的初始知识图谱,得到城市级数据知识图谱。本发明通过结合演化算法的全局搜索能力和深度学习的特征提取能力,自动挖掘和生成知识图谱中实体之间的潜在关系,提高知识图谱的覆盖率和准确性。
-
-
-
-
-
-
-
-