一种基于预训练和深度聚类的宏基因组物种重建方法

    公开(公告)号:CN115579068A

    公开(公告)日:2023-01-06

    申请号:CN202211069609.5

    申请日:2022-08-31

    Applicant: 吉林大学

    Abstract: 本发明提供了一种基于预训练和深度聚类的宏基因组物种重建方法。基于预训练和深度聚类的宏基因组物种重建方法,设计了基于图卷积神经网络联合Focal Loss损失函数的词嵌入特征提取模型以及基于LSTM自编码器联合改进的FCM算法的深度聚类模型。本发明构建的深度聚类算法模型,将深度学习与聚类结合在一起,重构误差与聚类误差同步优化,进一步提升二者性能,计算量也较小。在用户使用时,只需要针对所选取的数据集的大小及序列长度对整个模型的参数进行调整,重新运行模型即可得到聚类结果,大大提高了准确度与便利性,能够得到更加优秀的聚类结果。相较于其他方法,本发明所发现的未知物种完整度更高,污染度更低。

    一种基于参考物种标签约束的宏基因组序列深度聚类方法

    公开(公告)号:CN114065866A

    公开(公告)日:2022-02-18

    申请号:CN202111389111.2

    申请日:2021-11-22

    Applicant: 吉林大学

    Abstract: 本发明提供了一种基于参考物种标签约束的宏基因组序列深度聚类方法,设计了基于参考物种标签约束的深度学习预训练模型。本发明建立了基于不同群落的已知物种的预训练数据库,构建预训练数据库时将每条4mer特征向量分为同一物种、相同属不同物种和不同属不同物种三种情况,并分别研究了三种情况下的样本间序列的4mer特征间的关系;建立了预训练模型的标签约束误差函数,并且使用群落已知标签的数据库进行预训练,针对不同的微生物群落构建不同预训练模型;在用户使用时,只需要针对不同的群落加载所需群落的预训练模型,重新加载模型仅仅等待几次微调步骤的迭代即可得到聚类结果。最终,所述聚类方法能够展现非常优秀的聚类性能。

    一种基于参考物种标签约束的宏基因组序列深度聚类方法

    公开(公告)号:CN114065866B

    公开(公告)日:2024-04-30

    申请号:CN202111389111.2

    申请日:2021-11-22

    Applicant: 吉林大学

    Abstract: 本发明提供了一种基于参考物种标签约束的宏基因组序列深度聚类方法,设计了基于参考物种标签约束的深度学习预训练模型。本发明建立了基于不同群落的已知物种的预训练数据库,构建预训练数据库时将每条4mer特征向量分为同一物种、相同属不同物种和不同属不同物种三种情况,并分别研究了三种情况下的样本间序列的4mer特征间的关系;建立了预训练模型的标签约束误差函数,并且使用群落已知标签的数据库进行预训练,针对不同的微生物群落构建不同预训练模型;在用户使用时,只需要针对不同的群落加载所需群落的预训练模型,重新加载模型仅仅等待几次微调步骤的迭代即可得到聚类结果。最终,所述聚类方法能够展现非常优秀的聚类性能。

Patent Agency Ranking