一种基于机器学习算法提升对接软件虚拟筛选能力的方法

    公开(公告)号:CN111402967A

    公开(公告)日:2020-07-10

    申请号:CN202010169152.X

    申请日:2020-03-12

    Applicant: 中南大学

    Abstract: 本发明公开一种机器学习算法提升对接软件虚拟筛选能力的方法,依照实施虚拟筛选的目标靶点,收集该靶点下小分子数据构成模型训练的数据集,从PDB数据集中下载靶点蛋白;确定实施筛选的对接软件和打分函数,将数据集中的全部分子对接到靶点蛋白中,输出全部能量辅助项作为机器学习分类模型的输入特征;对于数据集中的正样本和负样本进行分层抽样以使活性分子和非活性分子的比例在训练集和测试集中保持相同;选择XGBoost算法作为分类模型方法,保留最佳参数组作为最终参数输出该分类模型;将外部小分子数据集与靶点蛋白对接,输出每一化合物的全部能量辅助项作为测试的输入特征;将所有分子的能量辅助项输入到已经训练好的模型输出预测结果。

    一种基于机器学习算法提升对接软件虚拟筛选能力的方法

    公开(公告)号:CN111402967B

    公开(公告)日:2023-04-07

    申请号:CN202010169152.X

    申请日:2020-03-12

    Applicant: 中南大学

    Abstract: 本发明公开一种机器学习算法提升对接软件虚拟筛选能力的方法,依照实施虚拟筛选的目标靶点,收集该靶点下小分子数据构成模型训练的数据集,从PDB数据集中下载靶点蛋白;确定实施筛选的对接软件和打分函数,将数据集中的全部小分子数据对接到靶点蛋白中,输出所有打分函数对应的能量辅助项作为机器学习分类模型的输入特征;对于数据集中的正样本和负样本进行分层抽样以使活性分子和非活性分子的比例在训练集和测试集中保持相同;将XGBoost算法作为机器学习分类模型,保留最佳参数组作为最终参数输出该分类模型;将外部小分子数据集与靶点蛋白对接,输出每一化合物的全部能量辅助项作为测试的输入特征;将所有分子的能量辅助项输入到已经训练好的模型输出预测结果。

Patent Agency Ranking