-
公开(公告)号:CN119380811A
公开(公告)日:2025-01-28
申请号:CN202411482977.1
申请日:2024-10-23
Applicant: 安徽农业大学
Abstract: 本发明公开了一种基于二次微调和集成算法的DNA甲基化位点预测方法,属于生物信息学技术领域。本发明将UCSC数据库中获得的人类DNA启动子序列经过1‑mer、3‑mer和5‑mer分词后作为语料库对BERT模型进行预训练,形成Promoter‑BERT模型,实现了对DNA启动子序列中深层特征的捕获和抽象,为后续的微调提供了高效且稳健的初始状态;利用3种甲基化的最大的三个数据集对Promoter‑BERT模型进行第一次微调,并利用数据量较小的14个数据集进行了模型的第二次微调,可以使模型更加专注于学习该数据集特有的特征,从而更好地适应特定任务,这有助于模型在目标任务上获得更高的准确性和性能,减少过拟合的风险。
-
公开(公告)号:CN119207581A
公开(公告)日:2024-12-27
申请号:CN202411248190.9
申请日:2024-09-06
Applicant: 安徽农业大学
IPC: G16B40/00 , G16B30/00 , G06N3/0455
Abstract: 本发明公开了一种基于集成学习的RNA中2OM位点预测方法,属于生物信息学技术领域。本发明针对RNA序列特性,对Promoter‑BERT模型进行特定任务的微调,使其能够更有效地捕捉特定任务中RNA序列的复杂模式,从而获取高质量的生物学特征表示;采用ANOVA技术对提取的特征进行选择,剔除冗余特征,保留最具影响力的特征,此外,结合传统的序列特征与通过Word2Vec模型得到的嵌入特征,以增强模型的表达能力;结合轻量级梯度提升机与深度学习模型的预测结果,通过软投票机制形成最终的预测模型,这种集成方法不仅提高了模型的泛化能力,还增加了预测的稳定性。
-