-
公开(公告)号:CN111739582A
公开(公告)日:2020-10-02
申请号:CN202010573023.7
申请日:2020-06-22
Applicant: 大连理工大学
Abstract: 本发明提供一种基于协同作用网络的生物组学数据分析方法,属于生物组学数据分析技术领域。本发明针对基因组学、转录组学与代谢组学数据维数高、样本量小的特点,通过构建协同作用网络,来充分挖掘组学分子间的协同互补关系,基于模块搜索的方式来选定重要模块,从而确定潜在的模块标志物。本发明为基因组学、转录组学与代谢组学数据的前期分析处理提供了切实有效的方法,对后续的医疗诊断具有较强的应用价值。
-
公开(公告)号:CN107798217B
公开(公告)日:2020-04-28
申请号:CN201710967812.7
申请日:2017-10-18
Applicant: 大连理工大学
Abstract: 本发明公开了一种基于特征对的线性关系的数据分析方法,属于生物数据分析技术领域,一种从生物大数据中挖掘特征对之间有效的线性组合关系,并利用区分能力强的特征对的线性组合关系构建融合分类模型对生物样本进行分类的方法。本方法首先对每一对特征构造SVM分类模型的超平面,得到其线性组合关系;给出第一准则和第二准则评价每一对特征对线性组合关系的区分能力;选择区分能力最强的k≥1对组合关系构建融合分类模型。本发明的核心内容是通过SVM和成对分析挖掘隐藏在生物大数据中的重要信息,建立有效的分类模型,寻找疾病诊断的潜在生物标志物。
-
公开(公告)号:CN110097920A
公开(公告)日:2019-08-06
申请号:CN201910284004.X
申请日:2019-04-10
Applicant: 大连理工大学
Abstract: 本发明提供一种基于近邻稳定性的代谢组学数据缺失值填充方法,属于代谢组学数据分析技术领域。该方法的核心技术是度量含缺失代谢物的样本的k个最近邻样本在相应代谢物上含量的稳定性,基于稳定的近邻样本,对不同类型的缺失值分别采用不同的策略进行填充。本发明对含有缺失值的代谢组学数据填充效果较好,对后续数据分析,代谢标志物选择等具有重要意义。
-
公开(公告)号:CN109856310A
公开(公告)日:2019-06-07
申请号:CN201811539434.3
申请日:2018-12-17
Applicant: 大连理工大学
IPC: G01N30/96
Abstract: 本发明以基于HRLC-MS的代谢组学为背景,提供一种基于HPLC-MS的去除代谢物离子峰表中假阳性质谱特征的方法,属于分析化学和代谢组学领域。该方法依据离子色谱图的信息熵指标和相关性系数来判别质谱中真实的化学信号,分别利用空白和实际样本的质谱原始数据去除对应非样本源化合物和噪声的假阳性特征。本发明可以减少噪声和非样本源化合物对代谢组学中分类模型的构建、生物标志物筛选以及代谢物定性的干扰,应用于化学计量学和代谢组学中质谱特征的处理。另外,本发明可以通过计算机程序自动化实现,不需要重复的化学实验以及肉眼判断等人工干预。
-
公开(公告)号:CN109856307A
公开(公告)日:2019-06-07
申请号:CN201910238318.6
申请日:2019-03-27
Applicant: 大连理工大学
Abstract: 本发明提供一种代谢组分子变量综合筛选技术,属于代谢组学数据分析技术领域。本发明中考量了分子对变量上多种可能的样本分布模式,对分子对变量的区分能力进行了综合的评价,并使用与分子对变量相同的指标,有机融合了单变量评价过程,将所有单变量和对变量的评分进行排序,选择得分最高的对变量及其分布模式或单变量进行后续靶向代谢分析。该方法的核心技术基于代谢组学的实际特点,对对变量上多种可能样本分布模式进行了多角度分析与综合评价,挖掘了信息丰富的变量,对所选分子变量和分子对变量进行分类测试,分类性能优越,故本发明为代谢组学数据的前期分析处理提供了切实有效的方法,具有较强的应用价值。
-
公开(公告)号:CN108537003A
公开(公告)日:2018-09-14
申请号:CN201810293444.7
申请日:2018-03-30
Applicant: 大连理工大学
Abstract: 本发明属于生物数据分析技术领域,涉及一种基于单变量和对变量的标志物筛选方法。生物数据具有维度高、样本量小的特点,所以利用简单且准确的决策规则评价、选择变量,从而进行分类与预测是生物数据分析的重要任务。为综合评价变量,本发明使用信息增益计算单变量的最佳分裂点。利用最佳分裂点构造新的变量,与其对应的原始变量建立对变量。同时,原始空间的变量也通过两两组合生成变量对。然后,根据两个评分准则对所有的对变量进行评分,将其按照得分由大到小排序,选择得分最高且不重叠的k对变量,构造融合分类器。该方法的核心技术利用单变量构造新的对变量,可以使用相同的准则评估单变量与对变量的分类性能,提供切实有效的数据处理方法。
-
公开(公告)号:CN104866863A
公开(公告)日:2015-08-26
申请号:CN201510207807.7
申请日:2015-04-27
Applicant: 大连理工大学
IPC: G06K9/62
CPC classification number: G06K9/6269
Abstract: 本发明为一种生物信息的数据挖掘方法,属于生物、计算机与数学交叉技术领域。首先根据特征在样本上的分布,计算重叠区域权重O,再计算SVM权重和变量关系得分。MBS采用特征的SVM权重|wi|、重叠区域权值OAi和变量关系得分值Scorei综合评价该特征,也作为排名依据,确定参数α1的最优值后,确定参数α2的值。本发明研究了变量关系得分,把它和变量重叠区域权值、特征权重一起考察,提供了一种特征综合评价的新方法。最终通过改善特征选择性能,帮助发现生物标志信息。
-
公开(公告)号:CN102798684A
公开(公告)日:2012-11-28
申请号:CN201110133061.1
申请日:2011-05-21
Applicant: 中国科学院大连化学物理研究所 , 大连理工大学
IPC: G01N30/72
Abstract: 本发明公开了一种保留时间锁定-气相色谱-四极杆质谱-选择性离子扫描进行化学轮廓分析的方法,首先采用气相色谱-质谱全扫描方法分析质量控制样品,采用质谱自动去卷积和峰识别系统对获得的全扫描信息进行质谱去卷积和峰识别,从AMDIS的结果文件中提取识别的化合物所对应的色谱保留时间信息,并根据该信息对不同保留时间的色谱峰进行分组;然后从原始数据文件中提取质谱信息,进行特征离子选定。建立保留时间锁定的GC-MS方法并对待分析的所有样品在该方法下进行选择离子检测。本发明使得采用气相色谱-质谱得到的化学轮廓分析数据的可靠性、有效性和可操作性得到提高。本方法也可推广到以液相色谱-质谱为基础的化学轮廓分析。
-
公开(公告)号:CN102798683A
公开(公告)日:2012-11-28
申请号:CN201110133018.5
申请日:2011-05-21
Applicant: 中国科学院大连化学物理研究所 , 大连理工大学
IPC: G01N30/72
Abstract: 本发明公开了一种基于气相色谱-质谱的化合物全组分定量分析方法,首先采用气相色谱-质谱全扫描方法获得待分析样品的数据信息,采用质谱自动去卷积和峰识别系统对所获得的全扫描数据信息进行质谱去卷积和峰识别。根据峰识别结果,从原始数据文件中提取质谱信息,计算化合物离子的特征值,筛选化合物特征离子,最终利用特征离子建立选择性离子扫描定量分析方法。本发明的核心在于通过化合物离子的特征值对化合物特征离子进行筛选。本方法可给出多个特征离子及其特征性评价指标-特征值。给出的多个特征离子可以分别作为定量离子和定量候选离子。
-
公开(公告)号:CN102478562A
公开(公告)日:2012-05-30
申请号:CN201010558383.6
申请日:2010-11-25
Applicant: 中国科学院大连化学物理研究所 , 大连理工大学
IPC: G01N30/88
Abstract: 本发明公开了一种利用改进的分布估计算法(L-EDA)从体液代谢组轮廓筛选卵巢癌预后标记物的方法。采用液相色谱质谱联用仪对体液代谢物进行分析得到代谢组轮廓,构建概率分布模型对代谢组轮廓进行分析,筛选潜在的卵巢癌预后标记物。不同于传统的分布估计算法,L-EDA对迭代搜索过程中生成的候选属性子集的大小加以限定,并给出一种新的概率分布模型更新策略,使得对于属性的评价更为精确、合理,同时提高了算法的执行效率。L-EDA筛选出的属性子集能够体现代谢组轮廓数据各个组别之间的特征,构建支持向量机(SupportVectorMachine,SVM)分类模型进行交叉验证分析,正确率达到99.06%。
-
-
-
-
-
-
-
-
-