-
公开(公告)号:CN119724349B
公开(公告)日:2025-05-16
申请号:CN202510228817.2
申请日:2025-02-28
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G16B30/00 , G16B40/00 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/0499 , G06N3/0455 , G06N3/082 , G06N3/084 , G06N3/0985
Abstract: 本发明公开了一种基于预训练模型和RNA二级结构的RNA G‑四链体预测方法和系统,包括,获取人类rG4在人类转录本上的位置信息;对于每一条序列,根据其序列位置坐标向两侧进行相同长度的填充使总长度达到设定长度值;获取人类cDNA序列数据作为参考序列,根据填充后的序列坐标从cDNA序列中提取包含侧翼序列信息的rG4数据作为正样本序列;对每条正样本序列进行打乱得到负样本序列;生成每条样本序列的RNA二级结构特征;使用预训练模型提取样本序列的序列特征;将序列特征和RNA二级结构特征输入至预测模型进行模型训练。本方案利用RNA序列的二级结构特征,引入二级结构特征作为辅助信息,能够显著提升模型的预测性能。
-
公开(公告)号:CN119724349A
公开(公告)日:2025-03-28
申请号:CN202510228817.2
申请日:2025-02-28
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G16B30/00 , G16B40/00 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/0499 , G06N3/0455 , G06N3/082 , G06N3/084 , G06N3/0985
Abstract: 本发明公开了一种基于预训练模型和RNA二级结构的RNA G‑四链体预测方法和系统,包括,获取人类rG4在人类转录本上的位置信息;对于每一条序列,根据其序列位置坐标向两侧进行相同长度的填充使总长度达到设定长度值;获取人类cDNA序列数据作为参考序列,根据填充后的序列坐标从cDNA序列中提取包含侧翼序列信息的rG4数据作为正样本序列;对每条正样本序列进行打乱得到负样本序列;生成每条样本序列的RNA二级结构特征;使用预训练模型提取样本序列的序列特征;将序列特征和RNA二级结构特征输入至预测模型进行模型训练。本方案利用RNA序列的二级结构特征,引入二级结构特征作为辅助信息,能够显著提升模型的预测性能。
-