-
公开(公告)号:CN119517171B
公开(公告)日:2025-04-29
申请号:CN202510081736.4
申请日:2025-01-20
Applicant: 之江实验室
Abstract: 本发明公开了一种功能蛋白质挖掘和筛选方法及装置,将蛋白结构预测、蛋白质功能注释、蛋白簇挖掘等多维度的生物信息学分析与基于蛋白质大语言的人工智能方法结合起来,构建了一个针对功能蛋白的挖掘和筛选的流程。引入蛋白质的结构分析,利用蛋白质结构与功能的关联,通过构建结构相似性图谱,发掘功能相近的蛋白。蛋白质大语言模型能够包含蛋白结构,翻译后修饰和生物物理学特性等与蛋白质功能相关的特征参数,并以向量矩阵的形式揭示蛋白内在的功能关联性。通过引入这两种分析手段,并结合传统的基于序列的蛋白质功能注释的方法,使得序列相似性和亲缘度更低,但是拥有相应功能的蛋白被挖掘和筛选出来,从而能够更加高效精准地利用生物大分子。
-
公开(公告)号:CN119517171A
公开(公告)日:2025-02-25
申请号:CN202510081736.4
申请日:2025-01-20
Applicant: 之江实验室
Abstract: 本发明公开了一种功能蛋白质挖掘和筛选方法及装置,将蛋白结构预测、蛋白质功能注释、蛋白簇挖掘等多维度的生物信息学分析与基于蛋白质大语言的人工智能方法结合起来,构建了一个针对功能蛋白的挖掘和筛选的流程。引入蛋白质的结构分析,利用蛋白质结构与功能的关联,通过构建结构相似性图谱,发掘功能相近的蛋白。蛋白质大语言模型能够包含蛋白结构,翻译后修饰和生物物理学特性等与蛋白质功能相关的特征参数,并以向量矩阵的形式揭示蛋白内在的功能关联性。通过引入这两种分析手段,并结合传统的基于序列的蛋白质功能注释的方法,使得序列相似性和亲缘度更低,但是拥有相应功能的蛋白被挖掘和筛选出来,从而能够更加高效精准地利用生物大分子。
-
公开(公告)号:CN119443093A
公开(公告)日:2025-02-14
申请号:CN202510050672.1
申请日:2025-01-13
Applicant: 之江实验室
IPC: G06F40/279 , G06V30/19 , G06V10/774
Abstract: 本发明提出了一种基于大型语言模型的酶活参数抽取方法与系统,属于文本信息处理和数据挖掘领域。本发明通过OCR技术将PDF格式文献转换为Markdown格式,随后利用大型语言模型结合优化的提示词自动提取关键数据;自动提取流程经过严格的提示词优化和后处理操作,确保数据的准确性和一致性;然后通过精确度和召回率验证自动提取的有效性,最终生成的酶数据库可供后续的研究和分析使用。本发明通过结合OCR技术与大型语言模型,突破了现有手动数据提取的局限,显著提升了文献解析和数据提取的自动化程度;通过提示词工程和优化的提示词设计,实现了复杂文献中的结构化数据自动提取,特别是对于酶动力学参数的精确识别和提取。
-
公开(公告)号:CN119132401B
公开(公告)日:2025-02-11
申请号:CN202411617083.9
申请日:2024-11-13
Applicant: 之江实验室
IPC: G16B25/10 , G16B45/00 , G06F18/2415
Abstract: 本发明公开了一种基于人工智能算法的高精度单细胞分类方法和装置,包括:首先,将原始单细胞数据转换为csv格式,并构建表达矩阵以描述基因在不同条件下的表达水平;接着,通过降维和聚类分析初步划分单细胞类别;进一步,结合PPI和GO信息,使用图神经网络方法对基因进行量化表征和分类;然后,构建单细胞数据嵌入模型,通过编码器和解码器提取特征,并通过交叉验证和超参数优化训练模型;最后将模型中编码器的隐藏层作为单细胞的嵌入表达矩阵,该层囊括了原始单细胞表达信息、PPI、GO等多维度数据,可实现包括单细胞精确分类在内的多种下游任务。本发明有助于深入理解基因表达模式,为疾病治疗和药物设计提供数据支持。
-
公开(公告)号:CN119132401A
公开(公告)日:2024-12-13
申请号:CN202411617083.9
申请日:2024-11-13
Applicant: 之江实验室
IPC: G16B25/10 , G16B45/00 , G06F18/2415
Abstract: 本发明公开了一种基于人工智能算法的高精度单细胞分类方法和装置,包括:首先,将原始单细胞数据转换为csv格式,并构建表达矩阵以描述基因在不同条件下的表达水平;接着,通过降维和聚类分析初步划分单细胞类别;进一步,结合PPI和GO信息,使用图神经网络方法对基因进行量化表征和分类;然后,构建单细胞数据嵌入模型,通过编码器和解码器提取特征,并通过交叉验证和超参数优化训练模型;最后将模型中编码器的隐藏层作为单细胞的嵌入表达矩阵,该层囊括了原始单细胞表达信息、PPI、GO等多维度数据,可实现包括单细胞精确分类在内的多种下游任务。本发明有助于深入理解基因表达模式,为疾病治疗和药物设计提供数据支持。
-
-
-
-