-
公开(公告)号:CN116028654B
公开(公告)日:2023-06-13
申请号:CN202310322871.4
申请日:2023-03-30
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/36
Abstract: 本发明提供知识节点的多模态融合更新方法,确定知识数据所包括的知识模态种类;根据每个知识节点的知识模态种类、相应知识模态种类的知识信息量计算,得到模态评价子系数,根据所有知识节点的模态评价子系数得到模态评价平均系数;根据模态评价子系数对第一知识节点进行升序排序得到知识节点序列;在知识节点序列中挑选前部的多个第一知识节点作为第二知识节点,根据第二知识节点在当前时刻的知识模态种类,生成相对应第二知识节点的推荐添加模态种类;根据所配置的新的知识模态种类和/或新的知识信息,对第二知识节点内的知识数据进行融合更新处理。
-
公开(公告)号:CN110287379B
公开(公告)日:2022-12-06
申请号:CN201910523223.9
申请日:2019-06-17
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/901 , G06F16/903
Abstract: 本发明提供一种基于逻辑树的表格拆分与数据提取方法,通构建表格逻辑树方式对表格进行按逻辑行和逻辑列的拆分,并通过对应到逻辑树的位置进行编码。通过逻辑树的表格拆分方式,实现了灵活地对表格进行搜索查询、拆分和数据提取,便于在政务数据表格处理的过程中,将不同部门的表格汇总到上级部门,同时也可以快速为下级部门提取所需的数据信息,实现了表格的智能关联。
-
公开(公告)号:CN115292303A
公开(公告)日:2022-11-04
申请号:CN202211221664.1
申请日:2022-10-08
Applicant: 太极计算机股份有限公司 , 中电科大数据研究院有限公司
IPC: G06F16/215 , G06K9/62
Abstract: 本发明公开了一种数据处理方法及装置,该方法包括:对数据集中的数据进行聚类,得到各类簇;对各类簇进行离群检测处理,所述离群检测处理包括:如果所述类簇中数据点的总数小于设定阈值,则将所述类簇中的所有数据点放入离群点候选集中;否则,依次计算所述类簇中各数据点到类簇中心的距离,并将所述距离大于等于半径的数据点放入离群点候选集中;对所述离群点候选集进行剪枝处理,得到剪枝后的离群点候选集;对剪枝后的离群点候选集中的数据点进行离群处理,确定数据点是否为离群点。利用本发明方案,可以有效提升大数据的数据质量。
-
公开(公告)号:CN113918663A
公开(公告)日:2022-01-11
申请号:CN202111369404.4
申请日:2021-11-18
Applicant: 中电科大数据研究院有限公司 , 中国雄安集团有限公司
IPC: G06F16/28 , G06F16/23 , G06F16/2458 , G06F16/2455 , G06F16/215 , G06F11/14
Abstract: 本发明提供了一种基于命名规则和缓存机制的知识图谱构的操作方法,包括以下步骤:数据采集‑知识图谱schema设计‑制定缓存策略‑命名规则制定‑图谱数据管理模块开发‑实体关系数据抽取‑数据缓存及更新校对‑图谱生成及二次校对‑缓存数据备份及管理。本发明能够利用缓存机制提升海量数据情况下的知识图谱构建生成效率、降低知识图谱构建过程中的数据校对和日志生成管理难度、支撑知识图谱数据回滚功能的实现;能够利用合理的命名规则和功能模块降低知识图谱数据管理的难度并实现缓存文件的自动处理、对比、知识图谱数据导入更新以及回滚,从而降低图谱构建和管理的难度、提升图谱构建速度、支撑图谱构建使用全生命周期管理需求的实现。
-
公开(公告)号:CN110347878A
公开(公告)日:2019-10-18
申请号:CN201910515522.8
申请日:2019-06-14
Applicant: 中电科大数据研究院有限公司 , 武汉大学
Abstract: 本发明属于数据融合技术领域,公开了一种规则引擎驱动的数据融合方法,包括以下步骤:设置融合规则的表达规范;设置融合引擎的实现规范;制定数据预处理、数据集成、同名实体匹配、同名实体融合四个阶段的融合规则,并构建四个阶段相应的融合规则库;解析四个阶段融合规则库中的融合规则,针对每一个融合规则创建一个对应的融合引擎,并构建四个阶段相应的融合引擎库;读取多源异构数据;用户指定融合规则,创建数据融合任务,调用融合引擎自动完成数据的融合过程。本发明解决了现有技术中的数据融合方法难以满足对数据的动态需求的问题。
-
公开(公告)号:CN116756375B
公开(公告)日:2024-05-07
申请号:CN202310517761.3
申请日:2023-05-09
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/901 , G06F16/906 , G06F40/30 , G06F16/958 , G06F16/907
Abstract: 本发明涉及信息处理领域,公开了一种基于图谱的异构数据的处理系统,其中用户模块对用户身份进行管理并提供交互界面;应用模块用于提供应用服务并配置均衡操作,用户通过用户模块执行访问时进行对应应用服务实例的查询和调用;数据模块用于为所有数据资源提供集合存储,所述数据模块包括一个或多个关系数据库RDBMS;在数据模块和应用模块之间,配置一个主题图索引模块,所述主题图索引模块用于从各个RDBMS提取数据,利用主题图构成一个结构化的语义索引层;实现对检索语句的语义检索处理。
-
公开(公告)号:CN116501875B
公开(公告)日:2024-04-26
申请号:CN202310486869.0
申请日:2023-04-28
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/35 , G06F16/31 , G06F16/34 , G06F40/289 , G06F40/216 , G06F40/253 , G06F40/186 , G06F16/28 , G06F16/901 , G06F18/23213 , G06N3/0442
Abstract: 本发明涉及信息处理领域,特别是一种基于自然语言和知识图谱的文档处理方法和系统,通过对主题关键词属性信息聚类分类处理;借助于权重值信息的赋值抽取出文档中的关键信息,对文档文本进行自动分词、自动分类、自动聚类处理,配置知识图谱获取到特定的语法与结构,形成自动填充模板,对法律文档配置填充格式,生成文档数据信息的自动摘要,能够快捷高效地向用户推送文档主题信息,提升了现有文档信息的处理效率。
-
公开(公告)号:CN116756375A
公开(公告)日:2023-09-15
申请号:CN202310517761.3
申请日:2023-05-09
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC: G06F16/901 , G06F16/906 , G06F40/30 , G06F16/958 , G06F16/907
Abstract: 本发明涉及信息处理领域,公开了一种基于图谱的异构数据的处理系统,其中用户模块对用户身份进行管理并提供交互界面;应用模块用于提供应用服务并配置均衡操作,用户通过用户模块执行访问时进行对应应用服务实例的查询和调用;数据模块用于为所有数据资源提供集合存储,所述数据模块包括一个或多个关系数据库RDBMS;在数据模块和应用模块之间,配置一个主题图索引模块,所述主题图索引模块用于从各个RDBMS提取数据,利用主题图构成一个结构化的语义索引层;实现对检索语句的语义检索处理。
-
公开(公告)号:CN116150405B
公开(公告)日:2023-06-27
申请号:CN202310416643.3
申请日:2023-04-19
Applicant: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
Abstract: 本发明提供一种多场景的异构数据处理方法,包括:从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中提取图结构信息,获取文本实体的结构拓扑特征;从第一知识图谱和第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;融合第一知识图谱和第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于第一知识图谱中任一文本实体的第一实体表示与第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于第一实体对齐概率矩阵,确定第一知识图谱和第二知识图谱的对齐实体对。本发明提升了异构数据融合的准确性。
-
公开(公告)号:CN116028821B
公开(公告)日:2023-06-13
申请号:CN202310314738.4
申请日:2023-03-29
Applicant: 中电科大数据研究院有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284
Abstract: 本发明提供融合领域知识的预训练模型训练方法、数据处理方法,服务器在判断接收到模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集;得到多个第一领域样本集与目标领域样本集的样本集相似度系数,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集;将第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。
-
-
-
-
-
-
-
-
-