一种具有编码蛋白潜力的ncRNA的识别方法

    公开(公告)号:CN114005529A

    公开(公告)日:2022-02-01

    申请号:CN202111218699.5

    申请日:2021-10-20

    Abstract: 本发明公开了一种具有编码蛋白潜力的ncRNA的识别方法,根据ncRNA的序列,首先通过对比学习框架获取ncNRA序列的低维向量表示,同时,也根据ncRNA序列计算其一些重要的统计特征,比如ORF覆盖率,Fickett等。然后,通过使用多模态特征融合方法进行特征融合,并把融合后的特征作为多层神经网络的输入,实现ncRNA编码潜能的预测。本发明与现有的技术相比,通过自监督的方式学习序列的低维向量表示很好地避开了绝大部分ncRNA数据未标注的问题,另外,提出使用注意力门控机制来学习特征之间非线性融合的普适性方法,以此来捕获特征之间的复杂关系。本发明可以比以前的技术更准确地识别出能够编码蛋白的ncRNA,在一定程度上,解决了生物实验方法的困难性大、盲目性、成本高的问题。

Patent Agency Ranking