-
公开(公告)号:CN119252348A
公开(公告)日:2025-01-03
申请号:CN202411285650.5
申请日:2024-09-13
Applicant: 安徽农业大学
Abstract: 本发明公开了基于蛋白质图和蛋白质语言模型的核酸结合蛋白识别方法,属于生物信息学技术领域。本发明将ProtT5蛋白质语言模型提取的高维序列特征与AlphaFold预测的三维结构信息结合起来,使得模型能够同时捕捉序列和结构的丰富特征信息,显著提升NABPs预测的准确性和可靠性;通过GAT网络和BiLSTM网络均增强了序列特征的表示能力,使得所构建的预测模型能够更全面地理解蛋白质序列中的重要信息,从而提高NABPs的预测性能;GAT网络和BiLSTM网络输出的特征进行融合,并通过MLP进行NABPs的分类,使得预测模型能够充分利用不同来源的特征信息,提高了NABPs预测的性能和鲁棒性。
-
公开(公告)号:CN119207581A
公开(公告)日:2024-12-27
申请号:CN202411248190.9
申请日:2024-09-06
Applicant: 安徽农业大学
IPC: G16B40/00 , G16B30/00 , G06N3/0455
Abstract: 本发明公开了一种基于集成学习的RNA中2OM位点预测方法,属于生物信息学技术领域。本发明针对RNA序列特性,对Promoter‑BERT模型进行特定任务的微调,使其能够更有效地捕捉特定任务中RNA序列的复杂模式,从而获取高质量的生物学特征表示;采用ANOVA技术对提取的特征进行选择,剔除冗余特征,保留最具影响力的特征,此外,结合传统的序列特征与通过Word2Vec模型得到的嵌入特征,以增强模型的表达能力;结合轻量级梯度提升机与深度学习模型的预测结果,通过软投票机制形成最终的预测模型,这种集成方法不仅提高了模型的泛化能力,还增加了预测的稳定性。
-