-
公开(公告)号:CN119293218A
公开(公告)日:2025-01-10
申请号:CN202411795064.5
申请日:2024-12-09
Applicant: 之江实验室
IPC: G06F16/334 , G06F16/36 , G06F40/30 , G06F40/295 , G06N5/022 , G06N5/04 , G06N3/0455
Abstract: 本发明公开了一种知识图谱增强的大模型多跳推理方法和系统,根据需要回答的问题,从外部知识图谱中提取以实体为中心的路径知识,并整合注入到大模型的理解和推理过程中,增强了大模型在解决复杂问题中的推理能力,并减少了幻觉现象。首先,基于给定的问题提取问题中的实体;接着,从外部知识图谱中搜索以实体为起点的多跳路径知识和以实体对为起终点的限长路径知识;随后,使用编码器计算给定问题和路径知识的嵌入向量并计算它们之间的相似性,保留相似度最高的路径知识;再利用大模型聚合筛选后的路径知识,形成全局知识;最后,使用预定义的指令模板整合筛选后的路径知识和聚合得到的全局知识到提示词中,激发大模型生成基于提供知识的答案。
-
公开(公告)号:CN119150996A
公开(公告)日:2024-12-17
申请号:CN202411624995.9
申请日:2024-11-14
Applicant: 之江实验室
Abstract: 本发明公开了一种结构感知的大模型图推理方法和系统,能够将图数据转化为结构感知的序列,支持大模型的零样本推理,从而高效且准确地完成图推理任务。包括:首先,准备图数据和图推理任务,图数据包括节点、边及其特征,然后对图数据进行标准化处理,并对图数据进行结构化编码;接着,将结构化编码的图数据转化为结构感知的序列,该序列可以是代码语言或者标准的图查询语言;随后,将序列化的图数据输入到大模型中,并设计特定的输入格式和任务描述,使大模型能够理解和执行图推理任务;紧接着,从大模型的输出中解析推理的结果,转化为结构化数据或者自然语言描述,供用户或者其他系统使用;最后,对推理结果进行验证和评估,确保结果的可靠性。
-
公开(公告)号:CN119150804A
公开(公告)日:2024-12-17
申请号:CN202411628434.6
申请日:2024-11-14
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练和业务执行方法、装置、存储介质及设备。所述模型训练方法包括:根据预设的数据并行维度和序列并行维度将样本数据切分为多个子样本,并将各子样本分配到不同的图形处理器GPU上;针对每个GPU,在将分配到该GPU上的子样本输入部署在该GPU上的目标模型后,确定目标模型中的每一个子层所对应的激活值并存储,其中,针对每个子层,若该子层对应的层级小于指定层级,则将该子层对应的激活值存储到中央处理器CPU中,并在该GPU中将该子层对应的激活值进行删除;确定目标模型的损失值,并根据损失值以及每个子层所对应的激活值,对目标模型进行训练。本方案有效提高了模型的训练效率和GPU的利用率。
-
公开(公告)号:CN119047458A
公开(公告)日:2024-11-29
申请号:CN202411525964.8
申请日:2024-10-30
Applicant: 之江实验室
IPC: G06F40/205 , G06F40/253 , G06V30/148 , G06F40/154
Abstract: 本发明公开了一种面向科学领域大模型训练语料的可视化方法和系统,包括:在服务端将从对象存储服务器获取的markdown格式的科学领域大模型训练语料分段流式传输到客户端;在客户端对接收到的markdown文本中的富文本内容进行解析和渲染得到还原结果;在客户端生成markdown文本的PDF原文内容与还原结果的对比图,并在对比图上附加语料元数据、用户信息水印和语料质量评分。本发明能够高效、准确、安全地传输、解析、渲染和分享markdown格式的科学领域大模型训练语料,并将语料质量评估结果分享到内外部专家,从而帮助科学领域大模型训练提供高质量语料数据,提高科学领域大模型准确率。
-
公开(公告)号:CN118823186A
公开(公告)日:2024-10-22
申请号:CN202411279998.3
申请日:2024-09-12
Applicant: 之江实验室
IPC: G06T11/60 , G06F3/0484 , G06F3/0481 , G06T7/13 , G06V30/422
Abstract: 本说明书公开了一种地质图的标注方法、装置、存储介质及电子设备,可以对地质图图像进行处理和信息提取,实现自动识别生成标注项、便捷选区、选区自动打标等能力,自动识别生成标注和选区自动打标能够省去创建和检索繁多标签的过程,通过便捷选区快速创建和编辑选区,不再需要手动或借助边缘拟合算法进行重复的描边操作,为标注流程提供了大量助力,能够大幅提高标注效率。
-
公开(公告)号:CN118590497A
公开(公告)日:2024-09-03
申请号:CN202411058898.8
申请日:2024-08-02
Applicant: 之江实验室
IPC: H04L67/104 , H04L67/1074 , H04L67/1095 , H04L67/1097 , H04L67/2866
Abstract: 本说明书提供一种基于异构通信的全归约通信方法及装置,计算节点确定待传输的待归约数据,通过与计算节点所在计算集群中其他节点间的通信链路,与其他节点进行通信,以获得计算节点的待归约数据和其他节点的待归约数据进行归约运算并均匀分配后的归约散射数据。根据计算节点的归约散射数据,同步执行第一通信过程和第二通信过程,直至计算节点获得将计算节点与其他节点的待归约数据进行全归约通信后的最终数据,所述第一通信包括:根据计算节点的归约散射数据,计算节点与各第一其他节点进行第一收集通信;所述第二通信包括:根据计算节点的归约散射数据,计算节点与各第二其他节点进行第二收集通信。
-
公开(公告)号:CN118333054B
公开(公告)日:2024-08-23
申请号:CN202410748618.X
申请日:2024-06-12
Applicant: 之江实验室
IPC: G06F40/289 , G06F40/216 , G06F18/15 , G06F18/2413 , G06N3/0499 , G06N3/084
Abstract: 本发明公开一种基于局部‑整体注意力的文本到文本的系统和方法,该系统包括至少一个电子数据存储器、数据预处理器和模型生成器。至少一个电子数据存储器用来存储输入的数据。数据预处理器将输入的文字做清洗、分词和生成词向量处理;模型生成器是transformer的变种,其每个注意力块中,注意力层是稀疏的局部‑整体注意,前馈层是稀疏前馈层;稀疏性能够大幅度减少网络的参数,从而减少计算和存储空间,局部‑整体注意力是多个局部注意力的聚合从而将计算复杂度由文字长度的平方级别降到线性级别。本发明通过构建所述的模型,能够用于文本翻译,知识问答,生成摘要等,其优点在于大幅度减少计算复杂度和节省存储空间,缩短模型的训练和推理时间。
-
公开(公告)号:CN118193797B
公开(公告)日:2024-07-26
申请号:CN202410618752.8
申请日:2024-05-17
Applicant: 之江实验室
IPC: G06F16/901 , G06F16/906 , G06F18/214 , G06F18/22 , G06F18/2431
Abstract: 本说明书公开了一种业务执行的方法、装置、存储介质及电子设备。其中,首先获取若干样本对象信息以及目标图数据结构,并提取若干样本对象信息的样本特征;根据样本特征,确定用于表征各样本对象信息间相似程度的邻接矩阵;根据邻接矩阵,处理样本特征,得到样本向量,以通过样本向量,对预先部署的识别模型进行训练;根据训练识别模型时所产生的梯度信息,调整邻接矩阵,获取调整后邻接矩阵,并根据调整后邻接矩阵,确定调整后样本向量;通过调整后样本向量,对待训练的图迁移学习模型进行训练,以通过训练后的图迁移学习模型,对目标图数据结构中包含的各节点进行分类,从而根据分类后图数据结构,执行业务。
-
公开(公告)号:CN118277645A
公开(公告)日:2024-07-02
申请号:CN202410710728.7
申请日:2024-06-04
Applicant: 之江实验室
IPC: G06F16/953 , G06N5/022
Abstract: 本发明公开了一种基于大语言模型的数据增强方法和装置,方法包括以下步骤:获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。本发明能够高质量地对原始语料数据进行自动化补充和扩展,实现更加高效和准确的数据增强。
-
公开(公告)号:CN117009038B
公开(公告)日:2024-02-13
申请号:CN202311283918.7
申请日:2023-10-07
Applicant: 之江实验室
Abstract: 本发明公开一种基于云原生技术的图计算平台,该平台包括使用云原生架构设计的软硬件协同系统、图存储系统、图计算引擎和图开发工场系统;其中,软硬件协同系统、图存储系统、图计算引擎运行在后端,图开发工场运行在前端。软硬件协同系统提供硬件计算资源和软硬件适配环境,图存储系统包括图划分模块、分布式持久化存储模块和分布式共享内存池模块,图计算引擎包括图查询引擎、图分析引擎和图学习引擎,图开发工场系统为基于图计算引擎构建的面向图计算领域的可视化操作系统,以K8s容器化的技术部署,用于将图计算算法的整个开发过程组件化、流程化和可视化。本发明的平台架构清晰、可扩展性强、使用门槛低、计算效率高。
-
-
-
-
-
-
-
-
-