一种使用自监督特征学习的三代宏基因组分箱方法

    公开(公告)号:CN116364192A

    公开(公告)日:2023-06-30

    申请号:CN202310216689.0

    申请日:2023-03-08

    Abstract: 本发明公开了一种使用自监督特征学习的三代宏基因组分箱方法,其包括步骤为:步骤一、在已测序基因组数据基础上生成模拟长reads;步骤二、将长reads送入自监督特征表示模型训练,并保存最佳模型参数;步骤三、模型训练后,将三代reads送入模型提取特征,宏基因组long reads序列通过特征表示模型转换成特征向量后,将输入到聚类层通过聚类层进行分箱。本发明避免了以往大多数方法只看重核苷酸频率和覆盖度等统计特征而忽视long reads本身序列特征的缺点,其使用的具有半监督性质的对比学习能够有效利用已有的数据库信息,避免了以往无监督学习的盲目性。

    一种群体感应先导化合物的虚拟筛选方法及应用

    公开(公告)号:CN116189759B

    公开(公告)日:2025-05-06

    申请号:CN202310234744.9

    申请日:2023-03-13

    Abstract: 本发明公开了一种群体感应先导化合物的虚拟筛选方法,主要流程包括:输入的分子化合物结构通过预处理构建分子邻接矩阵,送入GNN1网络生成化合物特征;输入的蛋白质序列,提取其蛋白质氨基酸组成、二肽频率组合成蛋白质初步特征向量,送入交叉网络,生成交叉融合特征;同时,将蛋白质序列生成对应的接触图,随后送入GNN2网络生成蛋白序列特征;最终将三个特征组合送入全连接层预测得到亲和力值。本发明可用于发现新的具有群体感应活性的化合物,为青枯菌等细菌的控制和防治提供新的思路和手段;同时该方法可以高效地筛选出与PhcA和PhcR蛋白结合的化合物,从而发现具有群体感应活性的化合物。

    一种群体感应先导化合物的虚拟筛选方法及应用

    公开(公告)号:CN116189759A

    公开(公告)日:2023-05-30

    申请号:CN202310234744.9

    申请日:2023-03-13

    Abstract: 本发明公开了一种群体感应先导化合物的虚拟筛选方法,主要流程包括:输入的分子化合物结构通过预处理构建分子邻接矩阵,送入GNN1网络生成化合物特征;输入的蛋白质序列,提取其蛋白质氨基酸组成、二肽频率组合成蛋白质初步特征向量,送入交叉网络,生成交叉融合特征;同时,将蛋白质序列生成对应的接触图,随后送入GNN2网络生成蛋白序列特征;最终将三个特征组合送入全连接层预测得到亲和力值。本发明可用于发现新的具有群体感应活性的化合物,为青枯菌等细菌的控制和防治提供新的思路和手段;同时该方法可以高效地筛选出与PhcA和PhcR蛋白结合的化合物,从而发现具有群体感应活性的化合物。

Patent Agency Ranking