-
公开(公告)号:CN119443093A
公开(公告)日:2025-02-14
申请号:CN202510050672.1
申请日:2025-01-13
Applicant: 之江实验室
IPC: G06F40/279 , G06V30/19 , G06V10/774
Abstract: 本发明提出了一种基于大型语言模型的酶活参数抽取方法与系统,属于文本信息处理和数据挖掘领域。本发明通过OCR技术将PDF格式文献转换为Markdown格式,随后利用大型语言模型结合优化的提示词自动提取关键数据;自动提取流程经过严格的提示词优化和后处理操作,确保数据的准确性和一致性;然后通过精确度和召回率验证自动提取的有效性,最终生成的酶数据库可供后续的研究和分析使用。本发明通过结合OCR技术与大型语言模型,突破了现有手动数据提取的局限,显著提升了文献解析和数据提取的自动化程度;通过提示词工程和优化的提示词设计,实现了复杂文献中的结构化数据自动提取,特别是对于酶动力学参数的精确识别和提取。
-
公开(公告)号:CN117746999B
公开(公告)日:2024-05-03
申请号:CN202410189826.0
申请日:2024-02-20
Applicant: 之江实验室
Abstract: 本说明书公开了一种数据处理的方法、装置、存储介质及电子设备。其中,首先获取细胞荧光蛋白检测源数据信息,并根据该细胞荧光蛋白检测源数据信息,确定出对应的元信息,进而根据该元信息,确定细胞荧光蛋白检测源数据信息中包含的有效数据值,并将有效数据值写入数据库,最后将该元信息与接收到的由用户输入的数据处理规则封装成通信消息发送至后端服务器,以使得后端服务器根据通信消息,解析出该通信消息中包含的元信息以及数据处理规则信息,并根据元信息,从数据库中查询出有效数据值,进而根据数据处理规则信息,对有效数据值进行数据处理。
-
公开(公告)号:CN117743809A
公开(公告)日:2024-03-22
申请号:CN202410189827.5
申请日:2024-02-20
Applicant: 之江实验室
IPC: G06F18/20 , G06F18/213 , G06F18/22 , G06N20/00
Abstract: 本说明书公开了一种细胞检测数据预处理方法、装置及存储介质,获取待处理的各细胞检测数据和各细胞检测数据对应的配置信息,配置信息至少包含若干提取规则,针对各细胞检测数据包含的每个子数据,确定该子数据的数据标识,根据数据标识,确定数据标识对应的各提取规则,依次针对每个提取规则,通过该提取规则从该子数据中提取对应的目标值,按照提取各目标值的顺序,确定该子数据对应的目标数据,根据各子数据对应的目标数据,确定结果数据。通过提取规则,可以实现对细胞检测数据中的各数据值的提取,并将提取到的各数据值重新排列整合为结果数据输出,该结果数据可用于机器学习算法的数据分析,与手动进行预处理相比,提高了预处理效率。
-
公开(公告)号:CN117637028A
公开(公告)日:2024-03-01
申请号:CN202311604097.2
申请日:2023-11-28
Applicant: 之江实验室
Abstract: 本发明公开了一种结合转录组和重测序数据获取直系同源基因的方法,通过采用C语言编写的算法与数据处理流程,结合来自重测序数据的基因组的DNA序列信息和来自转录组数据的基因的表达信息,以更准确、高效地鉴定SOGs。包括:对转录组原始数据进行组装,查找SOGs并比对到参考基因组,由此得到SOGs在基因组上的具体位置;对重测序数据进行遗传变异位点检测,得到包含所有位点信息的VCF文件;利用本发明工具FindSOG,根据SOGs的位置信息和VCF文件提取出重测序数据中的SOGs序列,将来自转录组和重测序数据的SOGs进行比对,得到的序列矩阵可用于后续进化分析。本发明整合了两种不同类型的数据集,能够更全面的提供更多物种的遗传信息,可在生物信息学研究领域得到广泛应用。
-
公开(公告)号:CN117174162A
公开(公告)日:2023-12-05
申请号:CN202311155995.4
申请日:2023-09-07
Applicant: 之江实验室
IPC: G16B15/00 , G16B30/00 , G16B40/00 , G06N3/0464 , G06N3/048 , G06N3/0455 , G06N3/09
Abstract: 在本说明书提供的一种预测蛋白质距离图的方法、存储介质及电子设备中,确认蛋白质残基序列,生成第一注意力图。通过三角注意力模块,对满足三角形不等式的残基进行加权,确定第二注意力图。以及通过残基混合模块,对具有指定结构关系的残基进行局部特征加权。最后使用还原模块,将残基混合模块输出与第一注意力图叠加突出对比效果,通过回归预测图的尺寸变换输出距离图。通过确定出满足三角形约束的残基并突出指定二维结构以及超二维结构的距离图,解决了单独对蛋白质残基距离预测存在预测结果失效的问题,从而提高蛋白质合成的效率。
-
公开(公告)号:CN118588155A
公开(公告)日:2024-09-03
申请号:CN202410637669.5
申请日:2024-05-22
Applicant: 之江实验室
Abstract: 本发明公开了一种基于贝叶斯优化的多肽筛选方法和装置,该方法在原始天然肽的基础上,充分结合分子动力学和分子对接等多种结合模拟手段,基于贝叶斯优化筛选出高亲和力的多肽序列;对天然多肽和蛋白进行分子对接;使用贝叶斯优化进行多肽突变生成新的多肽序列,并进行分子对接;使用构建的多肽蛋白的目标函数,基于贝叶斯优化筛选出推荐的多肽序列,不断迭代循环,最终筛选出高亲和力的突变多肽。本发明能够解决多肽药物序列生成高亲和力肽序列较为困难的行业痛点,能够很好的开展多肽蛋白间的优化筛选,基于贝叶斯优化不断迭代出极高亲和力的多肽序列,为大分子药物设计提供了一体化的生成与筛选流程。
-
公开(公告)号:CN118298923A
公开(公告)日:2024-07-05
申请号:CN202410285240.4
申请日:2024-03-13
Applicant: 之江实验室
IPC: G16B35/20 , G16B15/20 , G16B40/00 , G16C20/40 , G16C20/70 , G06F18/214 , G06N3/045 , G06N3/0455 , G06N3/096
Abstract: 本发明公开了一种基于预训练蛋白质大语言模型的功能蛋白生成与筛选方法;包括:首先,预训练蛋白质大语言模型;构建多功能蛋白质训练数据集,将多功能蛋白质训练数据集用于对预训练过的蛋白质大语言模型进行微调,生成蛋白质序列样本;其次,通过机器学习算法为主的搜索方法对生成的蛋白质序列样本进行筛选,得到筛选样本;最后,对筛选样本做后处理筛选与生物信息学分析,筛选出候选特定功能蛋白质序列,将其作为生物合成和功能验证的特定功能蛋白质样本。通过本发明的建立的功能蛋白生成与筛选的深度学习框架,将会在小数据量、小参数量的条件下,实现应用中可行的可解释性功能蛋白质生成,进一步实现了深度学习蛋白对的生成效率与创新。
-
公开(公告)号:CN117746999A
公开(公告)日:2024-03-22
申请号:CN202410189826.0
申请日:2024-02-20
Applicant: 之江实验室
Abstract: 本说明书公开了一种数据处理的方法、装置、存储介质及电子设备。其中,首先获取细胞荧光蛋白检测源数据信息,并根据该细胞荧光蛋白检测源数据信息,确定出对应的元信息,进而根据该元信息,确定细胞荧光蛋白检测源数据信息中包含的有效数据值,并将有效数据值写入数据库,最后将该元信息与接收到的由用户输入的数据处理规则封装成通信消息发送至后端服务器,以使得后端服务器根据通信消息,解析出该通信消息中包含的元信息以及数据处理规则信息,并根据元信息,从数据库中查询出有效数据值,进而根据数据处理规则信息,对有效数据值进行数据处理。
-
公开(公告)号:CN117726974A
公开(公告)日:2024-03-19
申请号:CN202311741404.1
申请日:2023-12-18
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/774 , G06V10/766 , G06V10/26 , G06V10/764
Abstract: 本发明公开了一种虫体活力评估方法及装置,采用SAM‑Track方法对短视频中的虫体进行实例分割和跟踪,得到准确的去除背景只包含虫体的视频,然后借助对预训练的VideoMAE模型进行回归训练,利用VideoMAE强大的时空特征提取能力,自动提取视频中表征虫体活力的特征,实现端到端的吡喹酮浓度预测,最后通过sigmoid映射实现对视频虫体活力的自动评估。实现了基于短视频的血吸虫活力量化评估方法,该方法可用于筛选非常大的抗血吸虫化合物集合,并且原理适用于其他寄生虫。
-
公开(公告)号:CN117636347A
公开(公告)日:2024-03-01
申请号:CN202311540012.9
申请日:2023-11-17
Applicant: 之江实验室
IPC: G06V20/70 , G06V10/26 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种基于部分标注数据的腹部多器官和肿瘤分割方法,包括:获取部分标注的腹部多器官及肿瘤数据集;基于所述部分标注的腹部多器官及肿瘤数据集,对DoDRepNet进行训练,其中所述DoDRepNet通过将参数化多元化专家混合的方法引入DoDNet得到;获取待分割的腹部图像,利用训练后的DoDRepNet进行分割,得到其中各器官和肿瘤的分割。本申请通过在DoDNet中引入重新参数化多元化专家混合(RepMode)的方法,构造DoDRepNet,对腹部器官和肿瘤进行分割。在RepMode框架内,多元化专家混合(MoDE)块构成了基础,用于以特定于任务的方式自适应地获取多尺度特征。
-
-
-
-
-
-
-
-
-