-
公开(公告)号:CN117727365A
公开(公告)日:2024-03-19
申请号:CN202311710888.3
申请日:2023-12-13
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多模态预训练大模型的蛋白质逆向折叠方法、设备,该方法包括:收集蛋白质结构和蛋白质序列配对数据进行预处理,构建训练集、验证集和测试集;基于蛋白质结构,通过预训练好的蛋白质结构编码器获取蛋白质的结构表征;通过蛋白质结构适配器将蛋白质的结构表征转换为序列生成的结构指导;运用自回归方法预训练蛋白质大语言模型,将序列生成的结构指导与蛋白质语言起始符进行拼接后输入到预训练好的蛋白质大语言模型中生成与蛋白质结构配对的蛋白质序列;使用评估指标对生成的蛋白质序列进行评估。本发明即使在训练数据较少的情况下也能够有较高的生成准确度,有利于提高逆向折叠的准确度与生成序列的广泛性与创新性。
-
公开(公告)号:CN116863996A
公开(公告)日:2023-10-10
申请号:CN202310724842.0
申请日:2023-06-19
Applicant: 之江实验室
Abstract: 本发明公开了一种推荐塑料降解酶突变位点的方法、电子设备、介质,包括:步骤S1,获取待预测塑料降解酶的氨基酸序列及其底物;预测底物与塑料降解酶的相互作用区域;设置阈值距离,以底物分子或塑料降解酶活性位点为基准阈值距离内的塑料降解酶氨基酸作为候选氨基酸突变位点;步骤S2,获取待预测塑料降解酶的空间结构,以氨基酸为节点,氨基酸之间的连接为边,经几何向量感知机预测输出每个候选氨基酸突变位点对应的i种氨基酸的预测概率,将概率最高的氨基酸作为该候选氨基酸突变位点可推荐的氨基酸;比较每个候选氨基酸突变位点的预测结果,当预测结果与原氨基酸序列不一致时,将该候选氨基酸突变位点作为推荐的塑料降解酶突变位点。
-
公开(公告)号:CN119443093A
公开(公告)日:2025-02-14
申请号:CN202510050672.1
申请日:2025-01-13
Applicant: 之江实验室
IPC: G06F40/279 , G06V30/19 , G06V10/774
Abstract: 本发明提出了一种基于大型语言模型的酶活参数抽取方法与系统,属于文本信息处理和数据挖掘领域。本发明通过OCR技术将PDF格式文献转换为Markdown格式,随后利用大型语言模型结合优化的提示词自动提取关键数据;自动提取流程经过严格的提示词优化和后处理操作,确保数据的准确性和一致性;然后通过精确度和召回率验证自动提取的有效性,最终生成的酶数据库可供后续的研究和分析使用。本发明通过结合OCR技术与大型语言模型,突破了现有手动数据提取的局限,显著提升了文献解析和数据提取的自动化程度;通过提示词工程和优化的提示词设计,实现了复杂文献中的结构化数据自动提取,特别是对于酶动力学参数的精确识别和提取。
-
公开(公告)号:CN119204199A
公开(公告)日:2024-12-27
申请号:CN202411698421.6
申请日:2024-11-26
Applicant: 之江实验室
Abstract: 本申请涉及一种基于生成式模型的科研辅助方法、装置以及计算机设备,应用于计算机科学技术领域,通过获取用户提交的科研指令;当科研指令包括实验验证任务时,基于实验验证代理,获取与科研指令对应的知识库,基于知识库验证实验验证任务中的实验假设的正确性,生成验证结论;其中,知识库基于预存的科研资料建立,解决了针对科研任务中的实验设计缺乏自动化分析的问题,实现了将智能代理与科研实验结合,完善科研辅助的功能。
-
-
-