-
公开(公告)号:CN113870942B
公开(公告)日:2024-06-14
申请号:CN202111079371.X
申请日:2021-09-15
申请人: 大连理工大学
摘要: 本发明提出了一种基于交互作用网络的生物组学数据特征选择方法,属于组学数据分析技术领域。在组学数据中,交互作用是生物分子间一类重要的关联关系。本发明给出距离相关增益指标以探索成对特征之间的交互作用,并利用距离相关增益指标构建交互作用网络。对于建立的网络,使用扩展的贪婪搜索策略筛选富含信息的特征。本发明的核心技术在于从系统层面探索特征间交互作用,可以更全面地揭示生理和病理变化的本质。此外,距离相关增益是一种计算特征间交互作用新度量,它不受数据分布假设的限制,既可以处理离散随机变量,也可以处理连续随机变量,具有较高的泛化性能。
-
公开(公告)号:CN115662504A
公开(公告)日:2023-01-31
申请号:CN202211361898.6
申请日:2022-11-02
申请人: 大连理工大学
摘要: 一种基于多角度融合的生物组学数据分析方法,从多个角度系统性的分析基因组学、代谢组学等组学数据与疾病的关联,构建了多个富含生物信息的特征子空间,保证了信息丰富度。为解决生物组学数据的样本量小,维度高对分析方法有效性的影响,考虑到生物体内各成分特征间关系的多样性,从多角度融合的角度出发,使用三种不同角度的特征选择方法,从不同角度构建出三种具有代表性且富含生物信息的特征子空间,并在其基础上建立融合分类模型进行数据分析。基于多个不同组学的公共数据集结果表明,通过所提出的多角度融合的数据分析方法,分析结果有效,分类性能更加优越,为基因组学、代谢组学和蛋白质组学等多种生物组学数据的研究提供切实有效的数据分析手段,具有较强的应用价值。
-
公开(公告)号:CN110890130B
公开(公告)日:2022-09-20
申请号:CN201911219855.2
申请日:2019-12-03
申请人: 大连理工大学
IPC分类号: G16B20/20
摘要: 基于多类型关系的生物网络模块标志物识别方法,属于组学数据分析技术领域。发明结合当前组学数据变量多,噪音多,生物体内变量以各种通路相互关联,变量之间关系复杂多样等实际特点,构建成对变量的多种组合变量,使用统一指标,对成对分子的各个组合进行类间区分能力评价,使用评价指标构建网络,并使用贪婪搜索技术搜索网络模块。有助于组学数据研究者迅速从基因组、代谢组等组学数据中识别具有强区分能力的变量模块,来进行后续针对分子功能,调控过程的定性定量研究,是一种基于多类型关系的生物网络模块标志物识别方法。
-
公开(公告)号:CN114609318A
公开(公告)日:2022-06-10
申请号:CN202011407875.5
申请日:2020-12-03
申请人: 中国科学院大连化学物理研究所 , 大连理工大学
摘要: 本发明公开了一种基于分子结构关联网络的规模化代谢组定性方法。首先,收集开源代谢组数据库中的内源性代谢物,基于代谢物分子结构相似性构建代谢组水平分子结构关联网络;其次,对生物样本提取物进行非靶向代谢组学分析,并构建保留时间预测模型;进一步通过少量结构确证的代谢物作为种子代谢物,基于网络相邻代谢物与种子代谢物有相似MS2这一前提,对代谢物进行定性。本发明方法不依赖于大规模实验MS2数据库,即可真正实现代谢组规模的快速定性,且定性结果更可靠。
-
公开(公告)号:CN108537003B
公开(公告)日:2020-04-07
申请号:CN201810293444.7
申请日:2018-03-30
申请人: 大连理工大学
摘要: 本发明属于生物数据分析技术领域,涉及一种基于单变量和对变量的标志物筛选方法。生物数据具有维度高、样本量小的特点,所以利用简单且准确的决策规则评价、选择变量,从而进行分类与预测是生物数据分析的重要任务。为综合评价变量,本发明使用信息增益计算单变量的最佳分裂点。利用最佳分裂点构造新的变量,与其对应的原始变量建立对变量。同时,原始空间的变量也通过两两组合生成变量对。然后,根据两个评分准则对所有的对变量进行评分,将其按照得分由大到小排序,选择得分最高且不重叠的k对变量,构造融合分类器。该方法的核心技术利用单变量构造新的对变量,可以使用相同的准则评估单变量与对变量的分类性能,提供切实有效的数据处理方法。
-
公开(公告)号:CN107992722A
公开(公告)日:2018-05-04
申请号:CN201711086392.8
申请日:2017-11-07
申请人: 大连理工大学
摘要: 一种基于对称不确定性和信息交互增益的特征选择方法,适用于生物信息数据分析,属于生物数据分析技术领域。生物体本身就是一个复杂的系统,生物体内分子之间相互关联,相互作用,共同反应生命现象的本质。为综合评价特征,除了需要考虑特征与类标的关联性之外,特征之间的互补性不容忽视。本发明采用对称不确定性和信息交互增益来衡量特征与类标之间的关联性以及特征与特征之间的互补性,结合二者计算特征的权重,同时采用特征后向迭代删除技术移除权重较低的特征,减少噪音特征对特征权重计算的干扰。本发明的核心思想是通过分析生物信息数据中特征之间潜在的关联关系,探索生物体内分子之间存在的复杂的相互作用,找到与疾病相关的生物标志物。
-
公开(公告)号:CN107798217A
公开(公告)日:2018-03-13
申请号:CN201710967812.7
申请日:2017-10-18
申请人: 大连理工大学
摘要: 本发明公开了一种基于特征对的线性关系的数据分析方法,属于生物数据分析技术领域,一种从生物大数据中挖掘特征对之间有效的线性组合关系,并利用区分能力强的特征对的线性组合关系构建融合分类模型对生物样本进行分类的方法。本方法首先对每一对特征构造SVM分类模型的超平面,得到其线性组合关系;给出第一准则和第二准则评价每一对特征对线性组合关系的区分能力;选择区分能力最强的k≥1对组合关系构建融合分类模型。本发明的核心内容是通过SVM和成对分析挖掘隐藏在生物大数据中的重要信息,建立有效的分类模型,寻找疾病诊断的潜在生物标志物。
-
公开(公告)号:CN104866863B
公开(公告)日:2018-02-16
申请号:CN201510207807.7
申请日:2015-04-27
申请人: 大连理工大学
IPC分类号: G06K9/62
摘要: 本发明为一种生物信息的数据挖掘方法,属于生物、计算机与数学交叉技术领域。首先根据特征在样本上的分布,计算重叠区域权重O,再计算SVM权重和变量关系得分。MBS采用特征的SVM权重|wi|、重叠区域权值OAi和变量关系得分值Scorei综合评价该特征,也作为排名依据,确定参数α1的最优值后,确定参数α2的值。本发明研究了变量关系得分,把它和变量重叠区域权值、特征权重一起考察,提供了一种特征综合评价的新方法。最终通过改善特征选择性能,帮助发现生物标志信息。
-
公开(公告)号:CN105424827B
公开(公告)日:2017-07-11
申请号:CN201510755515.7
申请日:2015-11-07
申请人: 大连理工大学
IPC分类号: G01N30/02
摘要: 本发明公开了一种代谢组学数据随机误差的筛选和校正方法,首先采用色谱‑质谱联用仪对样品进行分析得到代谢组轮廓,通过计算相邻两个质量控制样品(QC)中代谢物响应强度的比值,将比值从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而建立模型去筛选代谢组数据中的随机误差。然后利用比值的线性拟合模型对随机误差进行校正。本发明的核心在于通过代谢物在两个相邻QC样品中响应强度的比值构建模型去筛选和校正随机误差。本发明可以高效、准确地筛选和校正代谢组数据中的随机误差,改善代谢组数据的质量。
-
公开(公告)号:CN106650316A
公开(公告)日:2017-05-10
申请号:CN201610846347.7
申请日:2016-09-23
申请人: 大连理工大学
摘要: 本发明属于数据挖掘、生物信息学技术的交叉领域,提出了一种基于PTPR和轮盘赌的特征选择方法,是在职业网球选手排名算法的基础上,结合了轮盘赌算法,分别在种子集和非种子集中加入了轮盘赌机制,该机制用每个特征的累计得分计算出该特征被选中参与下一轮竞争的概率。这样,在种子集和非种子集中,表现相对较好的特征会以较高的概率被抽取。本发明提供了一种特征选择的新方法,该算法迭代多次,通过轮盘赌机制尽可能地使表现相对较好的特征参与每次迭代,从而提高了算法的收敛速度,增加了算法的分类准确率。算法最后根据每个特征的最终得分进行排序,得到特征排名,从排名靠前的特征中挑选出具有区分能力的特征形成特征子集。
-
-
-
-
-
-
-
-
-