一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法

    公开(公告)号:CN108614955A

    公开(公告)日:2018-10-02

    申请号:CN201810416970.8

    申请日:2018-05-04

    Applicant: 吉林大学

    Abstract: 本发明是一种新型的lncRNA鉴定方法。本发明提出了基于对数度量,多尺度二级结构,电子-离子互作赝势的三种新型特征设计提取方式,并进而利用机器学习算法构建分类器。对数度量特征可大幅降低基于序列组成特征的维数,在保证高准确度的同时提升模型的效率;多尺度二级结构特征则可在结构层面挖掘更加保守的特征;电子-离子互作赝势通过序列理化特征进一步提升本发明的跨物种稳定性。经实验验证,本发明针对人类数据集准确度高达97.28%,针对小鼠数据集准确度达93.47%,且本发明仅需56.01秒即可完成5000条序列的预测。相比其他算法,本发明有着更良好的准确度与效率,也具有更优秀的容错性与跨物种稳定性。

    找到与肿瘤相关的lncRNA并预测其功能

    公开(公告)号:CN106295246A

    公开(公告)日:2017-01-04

    申请号:CN201610639453.8

    申请日:2016-08-07

    Applicant: 吉林大学

    CPC classification number: G06F19/18 G06F19/20 G06F19/24

    Abstract: 本文是找到与肿瘤相关的lncRNA并预测其功能。我们把lncRNA在肿瘤中的差异表达作为诊断的参考,找出lncRNA与肿瘤之间的关系。第一步,从GEO数据库中下载数据,对其处理后得到外显子和部分lncRNA的表达数据。第二步,对处理好的表达数据进行差异表达分析。第三步,对差异表达的lncRNA分析与它共表达且差异的编码基因和lncRNA。第四步,将编码基因进行探针平台注释。第五步,对差异表达lncRNA进一步筛选,选出最显著差异的lncRNA。第六步,进行富集分析,得到GO BP过程和pathway。通过编码基因所涉及的生物过程来推测lncRNA的功能。第七步,对上一步得到的公共编码基因,分析是否可入血液、唾液和尿液,对可以进入的基因进行分析,这些基因和lncRNA就可以作为癌症的一个潜在的预测标记。

Patent Agency Ranking