-
公开(公告)号:CN119541641A
公开(公告)日:2025-02-28
申请号:CN202510104635.4
申请日:2025-01-23
Applicant: 吉林大学
IPC: G16B30/00 , G16B40/20 , G16B40/30 , G06F18/241 , G06F18/25 , G06N3/0455 , G06N3/0442 , G06N3/084 , G06N3/0985 , G06N3/088 , G06N3/0895 , G06N3/09
Abstract: 本发明公开了一种短抗菌肽序列的识别方法、系统、终端及存储介质。涉及生物信息学技术领域。通过预先获取短抗菌肽数据集,根据短抗菌肽数据集划分得到的训练集,根据训练集对预训练后的蛋白质语言模型进行微调;通过微调后的蛋白质语言模型,获取待分类序列的序列特征;通过基于伪氨基酸成分的分析方法,获取待分类序列的理化特征;将序列特征和理化特征输入注意力模型进行特征融合,得到待分类序列的融合特征;将融合特征输入分类器,得到待分类序列的预测类别。本发明通过建立一个更完善的短抗菌肽数据集对预训练模型进行微调,并将待分类序列的序列特征和理化特征相融合,通过融合特征进行序列分类,可以有效地提高短抗菌肽的识别精确率。