一种基于蒙特卡洛树搜索的多目标分子生成方法和装置

    公开(公告)号:CN117594156A

    公开(公告)日:2024-02-23

    申请号:CN202311496788.5

    申请日:2023-11-10

    Abstract: 本发明公开了一种基于蒙特卡洛树搜索的多目标分子生成方法和装置,属于基于靶点的分子生成领域,包括:基于已知的蛋白质序列和分子碎片,以及用户多目标属性需求,本发明采用构建蒙特卡洛树的方式,依次将满足用户需求且亲和力强的原子符号拼接到分子碎片之后,最后得到的完整的分子再通过化学工具分析属性,得到分子的评估值,其中包含了用户对于分子的多目标属性的需求,再将构建起来的非支配的分子加入全局帕累托集合中,用于构建用户需要的分子。本发明采用蒙特卡洛树搜索算法,同时提出多目标选择标准,实现了用户指定的多目标属性的分子生成,具有简单易行、快速有效且搜索效率高的优势。

    一种基于大型语言模型的化学文献解析和反应信息提取方法和装置

    公开(公告)号:CN118888046A

    公开(公告)日:2024-11-01

    申请号:CN202410915423.X

    申请日:2024-07-09

    Abstract: 本发明公开了一种基于大型语言模型的化学文献解析和反应信息提取方法和装置,对化学文献进行收集并经过OCR和筛选处理,得到处理后的化学文献数据集;对处理后的化学文献数据集进行信息提取,得到反应信息提取集合。相比于传统的常规工具包或成熟软件,本发明可适用于风格迥异的各类学术期刊,而传统的软件只能适用于专利文献或格式比较单一的某一类文献;因此本发明相比现有技术具有更好的普适性。本发明的针对性更强且在面对复杂问题时性能效果更加优良。本发明与传统上通过人工收集提取化学数据的方式相比,效率更高、成本更低且综合性能更加稳定。

    一种细胞检测数据预处理方法、装置及存储介质

    公开(公告)号:CN117743809B

    公开(公告)日:2024-05-24

    申请号:CN202410189827.5

    申请日:2024-02-20

    Abstract: 本说明书公开了一种细胞检测数据预处理方法、装置及存储介质,获取待处理的各细胞检测数据和各细胞检测数据对应的配置信息,配置信息至少包含若干提取规则,针对各细胞检测数据包含的每个子数据,确定该子数据的数据标识,根据数据标识,确定数据标识对应的各提取规则,依次针对每个提取规则,通过该提取规则从该子数据中提取对应的目标值,按照提取各目标值的顺序,确定该子数据对应的目标数据,根据各子数据对应的目标数据,确定结果数据。通过提取规则,可以实现对细胞检测数据中的各数据值的提取,并将提取到的各数据值重新排列整合为结果数据输出,该结果数据可用于机器学习算法的数据分析,与手动进行预处理相比,提高了预处理效率。

    基于多模态预训练大模型的蛋白质逆向折叠方法、设备

    公开(公告)号:CN117727365A

    公开(公告)日:2024-03-19

    申请号:CN202311710888.3

    申请日:2023-12-13

    Abstract: 本发明公开了一种基于多模态预训练大模型的蛋白质逆向折叠方法、设备,该方法包括:收集蛋白质结构和蛋白质序列配对数据进行预处理,构建训练集、验证集和测试集;基于蛋白质结构,通过预训练好的蛋白质结构编码器获取蛋白质的结构表征;通过蛋白质结构适配器将蛋白质的结构表征转换为序列生成的结构指导;运用自回归方法预训练蛋白质大语言模型,将序列生成的结构指导与蛋白质语言起始符进行拼接后输入到预训练好的蛋白质大语言模型中生成与蛋白质结构配对的蛋白质序列;使用评估指标对生成的蛋白质序列进行评估。本发明即使在训练数据较少的情况下也能够有较高的生成准确度,有利于提高逆向折叠的准确度与生成序列的广泛性与创新性。

    一种基于对比学习的生物合成表征方法及模型

    公开(公告)号:CN117558355A

    公开(公告)日:2024-02-13

    申请号:CN202311496800.2

    申请日:2023-11-10

    Abstract: 本发明公开了一种基于对比学习的生物合成表征方法及模型,属于生物合成反应的表征领域,包括:构建包含酶、酶的EC编号以及生物合成反应的训练样本集;采用对比学习方法,基于训练样本集构建包含酶的表征模型和小分子表征模型的生物合成表征模型,训练过程中使化学反应底物和产物间的损失函数、酶和EC编号间的损失函数、小分子和酶相互作用的损失函数最小化,完成对生物合成表征模型的训练;将下游任务的分子输入训练好的生物合成表征模型进行表征,得到酶的功能表征。本发明基于对比学习方法,构建了包含酶的表征模型和小分子表征模型的生物合成表征模型,能够同时实现小分子和酶的表征,从而实现多种酶的多种功能的通用性预测。

    先导化合物优化方法、装置、电子装置和存储介质

    公开(公告)号:CN117316330A

    公开(公告)日:2023-12-29

    申请号:CN202311158775.7

    申请日:2023-09-08

    Abstract: 本申请涉及一种先导化合物优化方法、装置、电子装置和存储介质,其中,该方法包括:将蛋白小分子掩码训练对数据输入至待训练先导化合物优化模型;调用多个网络层对先导化合物的训练样本数据进行预测,得到与蛋白口袋匹配的新生成原子的信息;基于新生成原子的信息,计算得到待训练先导化合物优化模型的损失值;确定损失值在预设的阈值范围内的待训练先导化合物优化模型为目标先导化合物优化模型;将待优化蛋白口袋数据和待优化分子片段数据输入至目标先导化合物优化模型,得到优化后的先导化合物。通过本申请解决了传统先导化合物优化方法受限于事先准备的化合物库所表达的活性化合物空间的问题。

    一种基于人工智能算法的高精度单细胞分类方法和装置

    公开(公告)号:CN119132401B

    公开(公告)日:2025-02-11

    申请号:CN202411617083.9

    申请日:2024-11-13

    Abstract: 本发明公开了一种基于人工智能算法的高精度单细胞分类方法和装置,包括:首先,将原始单细胞数据转换为csv格式,并构建表达矩阵以描述基因在不同条件下的表达水平;接着,通过降维和聚类分析初步划分单细胞类别;进一步,结合PPI和GO信息,使用图神经网络方法对基因进行量化表征和分类;然后,构建单细胞数据嵌入模型,通过编码器和解码器提取特征,并通过交叉验证和超参数优化训练模型;最后将模型中编码器的隐藏层作为单细胞的嵌入表达矩阵,该层囊括了原始单细胞表达信息、PPI、GO等多维度数据,可实现包括单细胞精确分类在内的多种下游任务。本发明有助于深入理解基因表达模式,为疾病治疗和药物设计提供数据支持。

Patent Agency Ranking