-
公开(公告)号:CN119380811A
公开(公告)日:2025-01-28
申请号:CN202411482977.1
申请日:2024-10-23
Applicant: 安徽农业大学
Abstract: 本发明公开了一种基于二次微调和集成算法的DNA甲基化位点预测方法,属于生物信息学技术领域。本发明将UCSC数据库中获得的人类DNA启动子序列经过1‑mer、3‑mer和5‑mer分词后作为语料库对BERT模型进行预训练,形成Promoter‑BERT模型,实现了对DNA启动子序列中深层特征的捕获和抽象,为后续的微调提供了高效且稳健的初始状态;利用3种甲基化的最大的三个数据集对Promoter‑BERT模型进行第一次微调,并利用数据量较小的14个数据集进行了模型的第二次微调,可以使模型更加专注于学习该数据集特有的特征,从而更好地适应特定任务,这有助于模型在目标任务上获得更高的准确性和性能,减少过拟合的风险。
-
公开(公告)号:CN119252348A
公开(公告)日:2025-01-03
申请号:CN202411285650.5
申请日:2024-09-13
Applicant: 安徽农业大学
Abstract: 本发明公开了基于蛋白质图和蛋白质语言模型的核酸结合蛋白识别方法,属于生物信息学技术领域。本发明将ProtT5蛋白质语言模型提取的高维序列特征与AlphaFold预测的三维结构信息结合起来,使得模型能够同时捕捉序列和结构的丰富特征信息,显著提升NABPs预测的准确性和可靠性;通过GAT网络和BiLSTM网络均增强了序列特征的表示能力,使得所构建的预测模型能够更全面地理解蛋白质序列中的重要信息,从而提高NABPs的预测性能;GAT网络和BiLSTM网络输出的特征进行融合,并通过MLP进行NABPs的分类,使得预测模型能够充分利用不同来源的特征信息,提高了NABPs预测的性能和鲁棒性。
-