一种基于小样本数据融合和迁移学习的色谱保留时间预测方法

    公开(公告)号:CN119068999A

    公开(公告)日:2024-12-03

    申请号:CN202411106564.3

    申请日:2024-08-13

    Abstract: 本发明提供一种基于小样本数据融合和迁移学习的色谱保留时间预测方法。针对小分子定性数据库中已知保留时间信息的化合物少、样本稀疏等问题,本发明联合多个小样本色谱数据训练基模型,通过微调,建立小样本数据的保留时间预测模型。重点关注影响化合物保留时间的因素,包括化合物结构与色谱实验条件。为此,本发明对色谱实验条件进行编码,在化合物表示中加入色谱实验条件,限定样本(化合物)对应的色谱实验,提升保留时间预测的准确性。通过编码色谱条件和化合物表示,联合多个小样本数据集进行预训练,提升了保留时间预测的准确性,很好地辅助了小分子的定性。

    基于基因调控网络构建的标志物筛选方法

    公开(公告)号:CN114093426B

    公开(公告)日:2024-05-07

    申请号:CN202111330308.9

    申请日:2021-11-11

    Abstract: 本发明公开了基于基因调控网络构建的标志物筛选方法,通过构建差异网络,筛选生物标志物,属于生物数据分析技术领域。本发明首先在全局范围执行遗传算法,根据每个任务对应的最优个体进行聚类,将相似任务划分至同一类,在每个类内执行遗传算法,在每个任务内进行信息迁移,进一步优化调控关系的推断,以得到最终的调控网络;最后分别在正常和疾病样本上构建调控网络,得到差异网络,通过差异网络筛选基因作为标志物。本发明的核心内容是通过浮点数编码的遗传算法结合多目标优化的方式来挖掘隐藏在基因表达数据中不同基因之间的内在联系,建立有效的基因关系推断模型,构建基因调控网络,通过差异调控网络筛选标志物。

    一种代谢组深度注释方法
    24.
    发明授权

    公开(公告)号:CN114594171B

    公开(公告)日:2023-12-15

    申请号:CN202011407735.8

    申请日:2020-12-03

    Abstract: 本发明公开了一种复杂生物样本代谢组深度注释方法。该方法通过对生物样本提取物进行基于超高效液相色谱‑高分辨质谱的非靶向代谢组学分析,获取生物样本的代谢组色谱‑质谱信息,再根据所获非靶向代谢组学数据中的实验一级质谱离子质荷比和实验保留时间,从代谢组学数据库筛选匹配的候选代谢物;进一步根据候选代谢物的分子指纹相似性构建代谢物分子结构关联网络。然后,利用非靶向超高效液相色谱‑高分辨质谱代谢组实验数据,以分子结构关联网络作为背景网络,进行代谢组规模化定性。本发明方法不依赖于大规模的实验二级谱图数据库,定性的覆盖度和可靠性更高。(56)对比文件孔宏伟 等.基于液相色谱-质谱联用的代谢组学研究中代谢物的结构鉴定进展《.色谱》.2014,第32卷(第10期),Shanshan Xu 等.Metabolomics Based onUHPLC-Orbitrap-MS and Global NaturalProduct Social Molecular NetworkingReveals Effects of Time Scale andEnvironment of Storage on the Metabolitesand Taste Quality of Raw Pu-erh Tea.《Journal of Agricultural and FoodChemistry》.2019,第67卷(第43期),Brian E. Sedio 等.A protocol forhigh-throughput,untargeted forestcommunity metabolomics using massspectrometry molecular networks.《Applications in Plant Sciences》.2018,第6卷(第3期),Huibin Shen 等.Metaboliteidentification through multiple kernellearning on fragmentation trees.《Bioinformatics》.2014,第30卷

    一种基因组变量综合筛选方法

    公开(公告)号:CN111739581B

    公开(公告)日:2022-10-18

    申请号:CN202010532686.4

    申请日:2020-06-12

    Abstract: 本发明提供一种基因组变量综合筛选方法,属于基因组数据分析技术领域。该方法采用非重叠度衡量基因自身的区分能力,通过基因与基因之间的相关性得到基因的影响力,考虑基因所在的社团的重要性。综合多项指标评价基因的重要性并以此筛选基因集进行后续基因标志物的研究。

    一种代谢组深度注释方法
    26.
    发明公开

    公开(公告)号:CN114594171A

    公开(公告)日:2022-06-07

    申请号:CN202011407735.8

    申请日:2020-12-03

    Abstract: 本发明公开了一种复杂生物样本代谢组深度注释方法。该方法通过对生物样本提取物进行基于超高效液相色谱‑高分辨质谱的非靶向代谢组学分析,获取生物样本的代谢组色谱‑质谱信息,再根据所获非靶向代谢组学数据中的实验一级质谱离子质荷比和实验保留时间,从代谢组学数据库筛选匹配的候选代谢物;进一步根据候选代谢物的分子指纹相似性构建代谢物分子结构关联网络。然后,利用非靶向超高效液相色谱‑高分辨质谱代谢组实验数据,以分子结构关联网络作为背景网络,进行代谢组规模化定性。本发明方法不依赖于大规模的实验二级谱图数据库,定性的覆盖度和可靠性更高。

    一种基因组变量综合筛选方法

    公开(公告)号:CN111739581A

    公开(公告)日:2020-10-02

    申请号:CN202010532686.4

    申请日:2020-06-12

    Abstract: 本发明提供一种基因组变量综合筛选方法,属于基因组数据分析技术领域。该方法采用非重叠度衡量基因自身的区分能力,通过基因与基因之间的相关性得到基因的影响力,考虑基因所在的社团的重要性。综合多项指标评价基因的重要性并以此筛选基因集进行后续基因标志物的研究。

    基于水平关系的代谢组学网络标志物识别方法

    公开(公告)号:CN110322930A

    公开(公告)日:2019-10-11

    申请号:CN201910489667.5

    申请日:2019-06-06

    Abstract: 本发明提供一种基于水平关系的代谢组学网络标志物识别方法,属于生物数据分析技术领域,用于筛选复杂疾病潜在网络标志物的代谢组学数据分析方法DNB-HC。特征间的水平关系使用概率得分进行定义,用于衡量一对代谢特征在同一个样本中的相对表达水平的大小关系,通过随机扰乱测试确定水平关系的鲁棒性,从而确定网络连边。此外,本发明使用差异网络分析方法识别网络标志物,筛选出的网络代谢标志物具有较好的区分能力,能够为研究疾病发生发展机理及疾病的诊断提供切实有效的数据处理手段。

    一种基于动态网络图分析的时间序列数据处理方法

    公开(公告)号:CN105447337B

    公开(公告)日:2018-01-26

    申请号:CN201510779302.8

    申请日:2015-11-13

    Abstract: 本发明提供了一种基于动态网络图分析的时间序列数据处理方法,从网络的角度分析代谢组学队列数据,分析变量之间的相互联系,根据变量之间关联性的动态变化构建代谢网络,并通过动态浓度变化和网络拓扑结构的变化分析确定疾病(例如恶性肿瘤)发生的预警信息。弥补了采用静态分析方法处理代谢组学时间序列数据忽略特征动态变化信息的缺点。而且,相对致力于发现单分子标志物的算法,本发明考察变量间的相互关系随时间的变化情况,分析、确定疾病发生改变的关键节点,从而更有助于对疾病致病机理的研究,为疾病的早期诊断和预后研究奠定基础。

    一种基于SVM-RFE和重叠度的特征选择方法

    公开(公告)号:CN105574363A

    公开(公告)日:2016-05-11

    申请号:CN201510932825.1

    申请日:2015-12-14

    CPC classification number: G06F19/24 G06K9/6269

    Abstract: 本发明属于数据挖掘、生物信息学技术的交叉领域,涉及一种基于SVM-RFE和重叠度的特征选择方法。首先基于训练样本X和当前特征集合F,屏蔽那些Nr(xi)>0的样本,并且最多屏蔽每类样本数的1/3,则剩余样本为Xt。然后基于当前特征集合F和训练集合Xt,构建SVM分类模型,得出d折交叉验证的分类准确率,然后计算出在当前特征集合F上训练样本Xt中的每个样本xi的重叠度Nr(xi),再求训练样本集合Xt的平均重叠度,选取对应分类准确率和平均准确率差最大的特征集FS作为最优特征集。本发明的方法用于特征选择,并且通过屏蔽高重叠度的样本来降低模型的过拟合问题,以帮助发现具有区分能力的生物标志信息。

Patent Agency Ranking