-
公开(公告)号:CN119443105A
公开(公告)日:2025-02-14
申请号:CN202510039582.2
申请日:2025-01-10
Applicant: 北京市大数据中心
IPC: G06F40/295 , G06N3/096 , G06F16/35 , G06N20/10
Abstract: 本发明提供基于迁移学习模型的实体关系抽取方法、装置、设备及介质,属于数据处理技术领域,获取原始数据,对原始数据进行预处理、标注,生成训练数据集,再构建实体关系;利用机器学习算法在知识图谱中构建实体关系处理任务;构建迁移学习模型,基于迁移学习模型将源域或源任务中的知识迁移学习到目标域或目标任务中,来初始化或辅助目标领域模型的训练;将机器学习算法与迁移学习模型相融合,通过利用源领域丰富的标注数据和领域知识,可以提取出对目标领域有用的特征表示,并将其应用于目标领域的任务中,能够更快地学习到有用的特征,从而提高实体识别和关系抽取等任务的准确率。
-
公开(公告)号:CN116012027A
公开(公告)日:2023-04-25
申请号:CN202211614436.0
申请日:2022-12-15
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06Q30/0201 , G06F16/22 , G06F16/2457
Abstract: 本申请涉及数据处理技术领域,尤其涉及一种数据全生命周期打标方法及系统,方法包括:确定打标对象;基于多种维度,生成打标对象的全生命周期中的各个数据服务阶段各自对应的标签;建立标签与打标对象的关联关系。本申请中的技术方案,对作为打标对象的数据进行从数据汇聚接入、存储、稽核、清洗、融合、服务到销毁整个全生命周期各个阶段的打标,将数据从产生到销毁的每个阶段从多种维度进行数据标签化,展示数据的“一生画像”,确保对数据进行使用时可以全程跟踪数据的处理过程,并快速精准溯源到原始数据。
-
公开(公告)号:CN115982272A
公开(公告)日:2023-04-18
申请号:CN202211488843.1
申请日:2022-11-25
Applicant: 北京市大数据中心
IPC: G06F16/27 , G06F16/2458 , G06F16/23
Abstract: 本申请公开了一种城市大数据管理的数据标注方法、装置及计算机存储介质,用于提高数据标注的精度。本申请方法包括:获取待标注的第一数据集,所述第一数据集为城市大数据管理数据库中待标注的数据;将所述第一数据集输入目标数据标注模型,以使得目标数据标注模型生成所述第一数据集中的第一数据的预标注标签;将所述第一数据及所述预标注标签上传至区块链平台;通过所述区块链平台向数据标注修订端发送所述第一数据及所述预标注标签,以使得所述数据标注修订端修订错误的预标注标签,并生成修订结果;将所述修订结果上传至所述区块链平台;通过区块链平台向数据标注质检端发送所述修订结果,以使得所述数据标注质检端质检所述修订结果的准确性,并生成质检报告上传至所述区块链平台。
-
公开(公告)号:CN119378495B
公开(公告)日:2025-04-18
申请号:CN202411942600.X
申请日:2024-12-27
Applicant: 北京市大数据中心
IPC: G06F40/16 , G06F40/194 , G06F40/30 , G06N3/0455
Abstract: 本发明提出的一种数据目录匹配优化与生成方法、系统、装置及介质,属于数据处理技术领域。所述方法包括:获取待治理的文本数据,形成待优化数据和资源数据,并进行数据预处理;使用SBERT模型对预处理后的数据进行向量化处理,生成句子的嵌入向量;通过对句子的嵌入向量之间进行相似度度量,识别出相关的内容,基于相似度度量结果推荐数据目录项;基于推荐的数据目录项,进行质量校验和反馈。本发明通过对系统自定义文本数据以及数据目录文本的向量化处理并通过SBERT模型进行相似度计算以及智能化推荐,实现了对复杂信息系统目录匹配结果的完善与优化。
-
公开(公告)号:CN116016718A
公开(公告)日:2023-04-25
申请号:CN202211698386.9
申请日:2022-12-28
Applicant: 北京市大数据中心
IPC: H04L69/18 , H04L69/08 , H04L67/565 , H04L67/566 , G06F9/54 , G06Q20/40
Abstract: 本申请公开了一种通用数据服务的方法及系统,所述提供数据服务的方法聚焦FTP、邮件和restful三种接口,参考适配器模式,将之前三种不同接口、工具链和程序的协议,统一到restful接口,使用者只需要开发一套接口和数据处理,处理三种不同的协议。支持PC和移动客户端。在解决接口异构基础上,进行高可用、高并发和高性能设计,提供快速、稳定和安全的服务。
-
公开(公告)号:CN119378495A
公开(公告)日:2025-01-28
申请号:CN202411942600.X
申请日:2024-12-27
Applicant: 北京市大数据中心
IPC: G06F40/16 , G06F40/194 , G06F40/30 , G06N3/0455
Abstract: 本发明提出的一种数据目录匹配优化与生成方法、系统、装置及介质,属于数据处理技术领域。所述方法包括:获取待治理的文本数据,形成待优化数据和资源数据,并进行数据预处理;使用SBERT模型对预处理后的数据进行向量化处理,生成句子的嵌入向量;通过对句子的嵌入向量之间进行相似度度量,识别出相关的内容,基于相似度度量结果推荐数据目录项;基于推荐的数据目录项,进行质量校验和反馈。本发明通过对系统自定义文本数据以及数据目录文本的向量化处理并通过SBERT模型进行相似度计算以及智能化推荐,实现了对复杂信息系统目录匹配结果的完善与优化。
-
公开(公告)号:CN119358689A
公开(公告)日:2025-01-24
申请号:CN202411942597.1
申请日:2024-12-27
Applicant: 北京市大数据中心
Abstract: 本发明提出的一种面向多元关系场景的知识推理方法、系统、装置及介质,属于知识图谱的构建和多元关系推理技术领域。所述方法包括:识别文本中的实体,并将实体链接到知识图谱中的对应节点上;从文本中抽取实体间的关系,确定关系类型,并生成多元关系数据;对多元关系数据进行建模,并使用嵌入技术将知识图谱中的实体和实体间的关系映射到连续的向量空间以预测出未知的实体间未知的实体和实体间的关系,并更新知识图谱;利用图结构进行逻辑推理,从知识图谱中学习推理规则,搜索特定的路径以发现实体间的新关系。本发明能够快速准确构建实体间的多元关系和确定这些关系的类型,并扩展传统的知识图谱,以更好地表示实体之间的复杂关系。
-
公开(公告)号:CN117874293A
公开(公告)日:2024-04-12
申请号:CN202410024477.7
申请日:2024-01-05
Applicant: 北京市大数据中心 , 太极计算机股份有限公司
IPC: G06F16/84 , G06F40/289 , G06F40/295 , G06F16/33 , G06N20/00
Abstract: 本申请提出一种文本转换模型的训练方法、非结构化文本数据的处理方法和装置,其中,具体的实施方案为:获取预训练好的文本转换模型,其中,文本转换模型是基于通用领域下的非结构化文本和对应的结构化文本训练得到的;获取目标业务领域下的非结构化文本样本;对非结构化文本样本进行结构化处理,以得到非结构化文本样本对应的结构化文本样本;根据非结构化文本样本以及对应的结构化文本样本,对文本转换模型进行训练,以得到适配于目标业务领域的目标文本转换模型,由此,基于预训练好的文本转换模型,无需大量的非结构化文本训练数据,即可得到适配于目标业务领域的目标文本转换模型,提高了目标文本转换模型进行文本转换的准确率。
-
公开(公告)号:CN117812540A
公开(公告)日:2024-04-02
申请号:CN202311853064.1
申请日:2023-12-29
Applicant: 北京市大数据中心
Abstract: 本申请实施例提供了一种基于手机信令数据的共享单车识别方法、系统及介质,该方法包括:基于物联网卡获取信令数据,将信令数据进行预处理,剔除冗余数据,得到处理后的信令数据;将处理后的信令数据进行分析,得到物联网卡移动轨迹,计算物联网卡的移动轨迹指标;根据物联网卡移动轨迹指标分析获取物联网卡的多项行为指标,分析不同物联网卡各项指标的差异分布情况,得到指标差异分布信息;将指标差异分布信息与运营商基站的运维信息进行交互,得到交互信息;根据交互信息筛选出属于共享单车的物联网卡,并识别共享单车;基于信令数据计算分析不同卡的移动行为轨迹,根据指标差异分布信息能够识别出全部品牌出共享单车。
-
-
-
-
-
-
-
-