-
公开(公告)号:CN118277645B
公开(公告)日:2024-08-09
申请号:CN202410710728.7
申请日:2024-06-04
Applicant: 之江实验室
IPC: G06F16/953 , G06N5/022
Abstract: 本发明公开了一种基于大语言模型的数据增强方法和装置,方法包括以下步骤:获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。本发明能够高质量地对原始语料数据进行自动化补充和扩展,实现更加高效和准确的数据增强。
-
公开(公告)号:CN118193757B
公开(公告)日:2024-07-30
申请号:CN202410618754.7
申请日:2024-05-17
Applicant: 之江实验室
IPC: G06F16/36 , G06F40/284 , G06N5/022 , G06F18/25 , G06F40/30
Abstract: 本说明书公开了一种任务执行方法、装置、存储介质及电子设备,终端设备在获取至少两个知识图谱后,先确定各知识图谱中包含的每个实体对应的名称表示向量、结构表示向量以及描述表示向量,而后根据每个实体对应的各向量确定每个实体对应的综合表示向量,从而根据每个实体对应的综合表示向量确定各等价实体集合以及各等价实体关系集合,进而根据各等价实体集合以及各等价实体关系集合融合各知识图谱,根据接收到的业务指令调取融合后的知识图执行目标任务。终端设备先确定出各等价实体集合以及各等价实体关系集合,进而融合各知识图谱,提高了多个知识图谱的融合效率以及融合效果。
-
公开(公告)号:CN118333054A
公开(公告)日:2024-07-12
申请号:CN202410748618.X
申请日:2024-06-12
Applicant: 之江实验室
IPC: G06F40/289 , G06F40/216 , G06F18/15 , G06F18/2413 , G06N3/0499 , G06N3/084
Abstract: 本发明公开一种基于局部‑整体注意力的文本到文本的系统和方法,该系统包括至少一个电子数据存储器、数据预处理器和模型生成器。至少一个电子数据存储器用来存储输入的数据。数据预处理器将输入的文字做清洗、分词和生成词向量处理;模型生成器是transformer的变种,其每个注意力块中,注意力层是稀疏的局部‑整体注意,前馈层是稀疏前馈层;稀疏性能够大幅度减少网络的参数,从而减少计算和存储空间,局部‑整体注意力是多个局部注意力的聚合从而将计算复杂度由文字长度的平方级别降到线性级别。本发明通过构建所述的模型,能够用于文本翻译,知识问答,生成摘要等,其优点在于大幅度减少计算复杂度和节省存储空间,缩短模型的训练和推理时间。
-
公开(公告)号:CN116705194B
公开(公告)日:2024-06-04
申请号:CN202310664368.7
申请日:2023-06-06
Applicant: 之江实验室
IPC: G16C20/50 , G16C20/30 , G16C20/70 , G16B15/30 , G16B20/50 , G16B30/10 , G06N3/042 , G06N3/045 , G06F18/25
Abstract: 本发明公开了一种基于图神经网络的药物抑癌敏感性预测方法与装置,包括:获取候选药物及癌细胞系原始数据;提取候选药物的药物信息特征,并进行扩展;根据药物信息特征,构建药物分子特征向量,以药物的原子为节点,化学键为边,构建药物邻接矩阵、节点特征矩阵和边特征矩阵;构建并迭代图神经网络模型,得到药物图特征;药物图特征与药物分子特征向量聚合后,得到药物表征;获取存储基因序列在癌细胞系中基因表达、基因突变、基因甲基化、基因拷贝数的表达量,提取癌细胞系表征;对药物表征和癌细胞系表征进行特征融合,得到药物‑癌细胞系实例对,将其对输入至药物抑癌敏感性预测模型中,预测得到候选药物在癌细胞系环境中的IC50值。
-
公开(公告)号:CN117892764A
公开(公告)日:2024-04-16
申请号:CN202311817973.X
申请日:2023-12-26
Abstract: 本申请涉及一种图神经网络生成方法、装置、计算机设备、存储介质和计算机程序产品。包括:在图神经网络的训练过程中,通过图神经网络获取图拓扑数据的平均度数,并确定图拓扑数据的邻接矩阵;在平均度数满足度数条件的情况下,基于平均度数确定图拓扑数据的图划分力度;基于按图划分力度对邻接矩阵进行划分确定的各顶点的邻接点数量,对各顶点进行排序,得到各顶点的排序结果;基于通过排序结果确定的动态邻居划分表,将图拓扑数据的多个子特征分别与邻接矩阵依次进行聚合,得到各子特征的子聚合结果;将各子聚合结果进行整合处理,输出图拓扑数据对应的聚合结果,基于聚合结果,生成训练后的图神经网络。采用本方法可加速图神经网络的训练速度。
-
公开(公告)号:CN116597892B
公开(公告)日:2024-03-19
申请号:CN202310560994.1
申请日:2023-05-15
Applicant: 之江实验室
IPC: G16B15/30 , G16B15/20 , G16B40/20 , G06N3/0455
Abstract: 本说明书公开了一种模型训练的方法以及分子结构信息的推荐方法及装置,通过获取到的数据集,构建出指定蛋白降解靶向嵌合体的三维分子图信息,该三维分子图信息充分的表征出指定蛋白降解靶向嵌合体的分子结构的各种特征,将该三维分子图信息输入到预测模型中后,预测模型会根据三维分子图信息,来预测与指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,进而根据预测出的目标片段信息以及与指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对预测模型进行训练,使得后续在预测分子结构的过程中,可以通过该预测模型实现快速、准确的分子片段预测,从而提高了分子片段探索的效率以及准确性。
-
公开(公告)号:CN116719631A
公开(公告)日:2023-09-08
申请号:CN202311010107.X
申请日:2023-08-11
Applicant: 之江实验室
Abstract: 在本说明书提供的分布式任务调度方法中,基于待调度任务及计算平台的计算节点状态参数,确定各候选分配策略,并根据预设分配约束条件,分别确定各候选分配策略的第一目标函数;根据候选分配策略是否满足分配约束条件,分别确定各候选分配策略的第二目标函数;根据第一目标函数及第二目标函数,确定候选分配策略适应度,通过进化算法确定目标分配策略,并将任务调度至目标分配策略对应计算节点计算。
-
公开(公告)号:CN116705194A
公开(公告)日:2023-09-05
申请号:CN202310664368.7
申请日:2023-06-06
Applicant: 之江实验室
IPC: G16C20/50 , G16C20/30 , G16C20/70 , G16B15/30 , G16B20/50 , G16B30/10 , G06N3/042 , G06N3/045 , G06F18/25
Abstract: 本发明公开了一种基于图神经网络的药物抑癌敏感性预测方法与装置,包括:获取候选药物及癌细胞系原始数据;提取候选药物的药物信息特征,并进行扩展;根据药物信息特征,构建药物分子特征向量,以药物的原子为节点,化学键为边,构建药物邻接矩阵、节点特征矩阵和边特征矩阵;构建并迭代图神经网络模型,得到药物图特征;药物图特征与药物分子特征向量聚合后,得到药物表征;获取存储基因序列在癌细胞系中基因表达、基因突变、基因甲基化、基因拷贝数的表达量,提取癌细胞系表征;对药物表征和癌细胞系表征进行特征融合,得到药物‑癌细胞系实例对,将其对输入至药物抑癌敏感性预测模型中,预测得到候选药物在癌细胞系环境中的IC50值。
-
公开(公告)号:CN116594958A
公开(公告)日:2023-08-15
申请号:CN202310606081.9
申请日:2023-05-25
Applicant: 之江实验室
IPC: G06F16/11 , G06F16/172 , G06F16/16 , G06F16/174 , G06F16/901
Abstract: 本发明提供了一种图数据集加载方法、系统、电子设备、介质,包括:获取图数据集,并解析前N条图数据,得到预览图数据;基于预览图数据通过交互式的方式配置图数据集字段映射关系,得到图数据集字段映射关系配置文件;对图数据集再次进行完整解析,得到解析图数据;读取图数据集字段映射关系配置文件;从解析图数据中读取对应的图结构点/边/属性,得到标准格式的图结构。本发明方法可以加载任意格式的图数据集,极大地提升了在图计算的过程中在图数据集上的加载效率。
-
公开(公告)号:CN116524998A
公开(公告)日:2023-08-01
申请号:CN202310714271.2
申请日:2023-06-15
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练的方法以及分子性质信息的预测方法及装置,通过构建出指定蛋白降解靶向嵌合体分子的三维分子图数据,该三维分子图数据充分的表征出指定蛋白降解靶向嵌合体分子的分子结构的特征,将该三维分子图数据输入到预测模型中后,预测模型会根据三维分子图数据,来预测指定蛋白降解靶向嵌合体分子的分子性质信息,进而根据预测出的分子性质信息以及指定蛋白降解靶向嵌合体分子对应的实际分子性质信息之间的偏差,对预测模型进行训练,使得后续在预测分子性质信息的过程中,可以通过该预测模型实现快速、准确的分子性质信息的预测,从而提高了分子性质信息的探索效率以及准确性。
-
-
-
-
-
-
-
-
-