一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置

    公开(公告)号:CN112614538A

    公开(公告)日:2021-04-06

    申请号:CN202011498422.8

    申请日:2020-12-17

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置,所述方法包括以下步骤:步骤S1:采用预训练策略,对来自蛋白质数据库的无标签蛋白质序列进行分词、遮盖处理,进行掩盖语言模型和句子连续性预测两个任务的预训练,捕捉词语级别和句子级别的表示,帮助模型学习蛋白质序列通用的结构化特征;步骤S2:针对抗菌肽预识别和预测任务,更改预训练模型的输出层,使用带标签的抗菌肽数据集对模型进行微调,生成抗菌肽预测模型;步骤S3:根据抗菌肽预识别和预测任务,采用抗菌肽预测模型进行识别,输出预测结果。本发明将预训练应用到抗菌肽识别和预测领域,基于已知的数据量小、分布不均衡的抗菌肽序列,建立高效的抗菌肽预测模型。

Patent Agency Ranking