-
公开(公告)号:CN106529204B
公开(公告)日:2019-05-07
申请号:CN201610905670.7
申请日:2016-10-18
Applicant: 中国科学院计算技术研究所
IPC: G16B15/00
Abstract: 本发明提供一种基于半监督学习的交联质谱多谱排序方法,包括:1)分别对每个谱图进行单谱匹配和排序,得到对应的最优的交联二肽单谱匹配结果;提取当前每一个肽谱匹配结果的多谱匹配特征向量,其中包括SVM分数、母离子误差比例特征和修饰比例特征等动态特征;2)在所得到的交联二肽匹配结果中,取FDR在预设的FDR阈值以内的属于正样本的结果构建正样本库,取所有负样本的结果构建反样本库;基于新的训练样本更新各个多谱匹配特征向量;3)训练SVM分类器;4)用本轮训练后的SVM分类器对所有交联二肽结果进行重打分;5)根据预设的迭代条件判断是否继续进行迭代,结束迭代时基于当前SVM分数输出多谱排序结果。本发明的多谱排序方法灵敏度高且性能稳定。
-
公开(公告)号:CN106033501B
公开(公告)日:2018-11-30
申请号:CN201510112890.X
申请日:2015-03-16
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明提供一种交联二肽快速鉴定方法,包括:1)提取待鉴定串联谱图中的有效谱峰,根据各个有效谱峰对应的质量,查找碎片索引得到相应的肽段序列作为候选α肽序列,其中所述碎片索引记录了各个碎片质量及其对应的肽段序列;2)对于每个候选α肽序列,根据所述待鉴定串联谱图的母离子质量计算相应的β肽质量,进而得到相应的候选β肽序列,将候选α肽序列和相应的候选β肽序列组合得到候选交联二肽;3)将步骤2)所得的候选交联二肽与串联谱图进行精细匹配,得出鉴定结果。本发明不需使用特殊交联剂;搜索速度快,鉴定效率高;搜索灵敏度高。
-
公开(公告)号:CN106198706A
公开(公告)日:2016-12-07
申请号:CN201610497295.7
申请日:2016-06-29
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
CPC classification number: G01N33/6848
Abstract: 本发明提供一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,包括:1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;数据库既包括真实肽段结构也包括诱饵肽段结构;2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n-k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;3)计算n肽交联的假发现率FDR(n)。本发明更加准确地估计多肽交联肽段质谱鉴定的假发现率;能够帮助提高鉴定的准确率和鉴定率。
-
公开(公告)号:CN106033501A
公开(公告)日:2016-10-19
申请号:CN201510112890.X
申请日:2015-03-16
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明提供一种交联二肽快速鉴定方法,包括:1)提取待鉴定串联谱图中的有效谱峰,根据各个有效谱峰对应的质量,查找碎片索引得到相应的肽段序列作为候选α肽序列,其中所述碎片索引记录了各个碎片质量及其对应的肽段序列;2)对于每个候选α肽序列,根据所述待鉴定串联谱图的母离子质量计算相应的β肽质量,进而得到相应的候选β肽序列,将候选α肽序列和相应的候选β肽序列组合得到候选交联二肽;3)将步骤2)所得的候选交联二肽与串联谱图进行精细匹配,得出鉴定结果。本发明不需使用特殊交联剂;搜索速度快,鉴定效率高;搜索灵敏度高。
-
公开(公告)号:CN104215729A
公开(公告)日:2014-12-17
申请号:CN201410406562.6
申请日:2014-08-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种串联质谱母离子检测模型训练方法,包括下列步骤:1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母离子;2)提取每个二级谱图-候选母离子组合的特征向量,并根据二级谱图和候选母离子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度和虚拟色谱相似度;3)将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。本发明还提供了相应的母离子检测方法。本发明能够提高母离子召回率并提高母离子的检测速度。
-
公开(公告)号:CN106198706B
公开(公告)日:2019-02-01
申请号:CN201610497295.7
申请日:2016-06-29
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
Abstract: 本发明提供一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,包括:1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;数据库既包括真实肽段结构也包括诱饵肽段结构;2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n‑k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;3)计算n肽交联的假发现率FDR(n)。本发明更加准确地估计多肽交联肽段质谱鉴定的假发现率;能够帮助提高鉴定的准确率和鉴定率。
-
公开(公告)号:CN106529204A
公开(公告)日:2017-03-22
申请号:CN201610905670.7
申请日:2016-10-18
Applicant: 中国科学院计算技术研究所
IPC: G06F19/16
CPC classification number: G06F19/16
Abstract: 本发明提供一种基于半监督学习的交联质谱多谱排序方法,包括:1)分别对每个谱图进行单谱匹配和排序,得到对应的最优的交联二肽单谱匹配结果;提取当前每一个肽谱匹配结果的多谱匹配特征向量,其中包括SVM分数、母离子误差比例特征和修饰比例特征等动态特征;2)在所得到的交联二肽匹配结果中,取FDR在预设的FDR阈值以内的属于正样本的结果构建正样本库,取所有负样本的结果构建反样本库;基于新的训练样本更新各个多谱匹配特征向量;3)训练SVM分类器;4)用本轮训练后的SVM分类器对所有交联二肽结果进行重打分;5)根据预设的迭代条件判断是否继续进行迭代,结束迭代时基于当前SVM分数输出多谱排序结果。本发明的多谱排序方法灵敏度高且性能稳定。
-
公开(公告)号:CN104215729B
公开(公告)日:2016-09-28
申请号:CN201410406562.6
申请日:2014-08-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种串联质谱母离子检测模型训练方法,包括下列步骤:1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母离子;2)提取每个二级谱图‑候选母离子组合的特征向量,并根据二级谱图和候选母离子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度和虚拟色谱相似度;3)将所有二级谱图‑候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。本发明还提供了相应的母离子检测方法。本发明能够提高母离子召回率并提高母离子的检测速度。
-
-
-
-
-
-
-