-
公开(公告)号:CN111524549B
公开(公告)日:2023-04-25
申请号:CN202010244337.2
申请日:2020-03-31
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统,其流程包括质谱的预处理、蛋白质变体的鉴定和可信度打分,其中在质谱的预处理过程中增加母离子在多电荷状态下理论与实验同位素模式匹配误差之和作为特征进行母离子候选电荷范围的剪枝及候选母离子的打分排序,在蛋白质变体的鉴定过程中使用序列标签技术获取候选蛋白质,并使用母离子质量约束,及蛋白质枚举的两翼标签和质谱上提取的标签来获取所有可能的两端截断的候选蛋白质序列,最后使用滑动窗口技术进行优化。本发明通过以上技术创新,能够在鉴定系统维持高效的基础上,提高了鉴定算法的灵敏度和速度,增加了可检测蛋白质的数量范围。
-
公开(公告)号:CN106529204B
公开(公告)日:2019-05-07
申请号:CN201610905670.7
申请日:2016-10-18
Applicant: 中国科学院计算技术研究所
IPC: G16B15/00
Abstract: 本发明提供一种基于半监督学习的交联质谱多谱排序方法,包括:1)分别对每个谱图进行单谱匹配和排序,得到对应的最优的交联二肽单谱匹配结果;提取当前每一个肽谱匹配结果的多谱匹配特征向量,其中包括SVM分数、母离子误差比例特征和修饰比例特征等动态特征;2)在所得到的交联二肽匹配结果中,取FDR在预设的FDR阈值以内的属于正样本的结果构建正样本库,取所有负样本的结果构建反样本库;基于新的训练样本更新各个多谱匹配特征向量;3)训练SVM分类器;4)用本轮训练后的SVM分类器对所有交联二肽结果进行重打分;5)根据预设的迭代条件判断是否继续进行迭代,结束迭代时基于当前SVM分数输出多谱排序结果。本发明的多谱排序方法灵敏度高且性能稳定。
-
公开(公告)号:CN104182658B
公开(公告)日:2017-05-03
申请号:CN201410382707.3
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种串联质谱谱图鉴定方法,其特征在于,包括下列步骤:1)对于待鉴定谱图数据集中的每张谱图,分别在全局序列库中进行限制性搜索,获得各谱图的匹配肽段;2)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,获得与一部分谱图相匹配的带修饰的肽段,并获得所带修饰的质量和误差区间;3)对于待鉴定谱图数据集中的每张谱图,根据步骤2)所匹配的修饰的质量和误差区间以及当前待鉴定谱图的质量,设定限制性搜索区间,并在全局序列库中进行搜索,获得最终的匹配结果。本发明能够提高串联质谱谱图鉴定的鉴定率和准确度,并且具有较高的搜索速度。
-
公开(公告)号:CN103776891B
公开(公告)日:2017-03-29
申请号:CN201310397694.2
申请日:2013-09-04
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
Abstract: 本发明涉及一种检测差异表达蛋白质的方法,面向定量蛋白质组学中的基于一级谱图信息的标记和非标记的相对定量数据分析,包括肽谱匹配、可信度评价、肽段信号提取、肽段比值计算、蛋白质比值计算、统计学分析,根据某蛋白质在两种或多种样品中对应的质谱信号强度比值判断其是否是差异表达蛋白质。对于近百GB的规模的质谱实验采集的数据,快速地自动化分析,对不同蛋白质在质谱仪中的信号尽可能精准地提取蛋白质信号;从统计学意义上确定蛋白质差异表达,并对结果的准确性进行评价。
-
公开(公告)号:CN103678950B
公开(公告)日:2016-05-18
申请号:CN201210316345.9
申请日:2012-08-30
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明公开了一种开放式蛋白质鉴定的分布式加速方法及其系统,其中开放式蛋白质鉴定的分布式加速系统包括:蛋白库索引建立模块、谱图数据准备模块、查询打分模块、结果汇总输出模块。本发明提供的一种开放式蛋白质鉴定的分布式加速方法和系统,能有效利用集群资源,允许用户在蛋白质大库下不指定酶切和修饰的类型,或指定其中的任意类型进行蛋白质鉴定,有效的提高了蛋白质谱鉴定速度和解析率。
-
公开(公告)号:CN103810200B
公开(公告)日:2016-03-30
申请号:CN201210451907.0
申请日:2012-11-12
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明有关于一种开放式蛋白质鉴定的数据库搜索方法及其系统,其中该方法包括:步骤1,输入蛋白质序列,模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表,并根据该肽序列数据表建立索引文件;步骤2,输入质谱图,对每张质谱图,提取谱峰生成查询集合,查询所述索引文件,得到序列集合;步骤3,对每张质谱图及其对应的序列集合,根据修饰组合,生成候选肽段并打分;步骤4,对打分结果进行整合,并进行肽段到蛋白质的推断,得到鉴定结果。本发明允许用户不指定酶切和修饰的类型,或指定其中的任意类型进行蛋白质鉴定,用于解决任意类型的酶切和修饰的鉴定问题。
-
公开(公告)号:CN103810200A
公开(公告)日:2014-05-21
申请号:CN201210451907.0
申请日:2012-11-12
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F19/18
Abstract: 本发明有关于一种开放式蛋白质鉴定的数据库搜索方法及其系统,其中该方法包括:步骤1,输入蛋白质序列,模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表,并根据该肽序列数据表建立索引文件;步骤2,输入质谱图,对每张质谱图,提取谱峰生成查询集合,查询所述索引文件,得到序列集合;步骤3,对每张质谱图及其对应的序列集合,根据修饰组合,生成候选肽段并打分;步骤4,对打分结果进行整合,并进行肽段到蛋白质的推断,得到鉴定结果。本发明允许用户不指定酶切和修饰的类型,或指定其中的任意类型进行蛋白质鉴定,用于解决任意类型的酶切和修饰的鉴定问题。
-
公开(公告)号:CN101196498B
公开(公告)日:2011-06-01
申请号:CN200610164852.X
申请日:2006-12-06
Applicant: 中国科学院计算技术研究所
IPC: G01N30/72
Abstract: 本发明公开了一种质谱质量测量误差的预测方法,包括如下步骤:步骤一,将物质的测量误差分解为系统误差与随机误差;步骤二,在质谱中计算样本点的测量误差,样本点包括质谱中的离子、离子之和或者离子之差;步骤三,使随机误差的目标函数取最值来确定系统误差分布函数的参数取值。所述在质谱中计算样本点的测量误差是通过预测离子分子式的方法获得。本发明的优点是:不需要额外的内标或外标参考,不需要进行预先的鉴定;既可以预测单个质谱的误差情况,也可以预测整个样品的所有质谱的误差分布情况;预测准确度高。
-
公开(公告)号:CN102043011A
公开(公告)日:2011-05-04
申请号:CN201010515241.1
申请日:2010-10-20
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
Abstract: 本发明提供一种电子转运裂解质谱预处理方法,包括:计算母离子的质荷比和电荷状态;计算母离子峰及其同位素峰在电子转运裂解质谱中可能出现的区域;计算母离子的系列衍生峰在电子转运裂解质谱中可能出现的区域;计算母离子的中性丢失峰在电子转运裂解质谱中可能出现的区域;将所述电子转运裂解质谱中由计算得到的区域中的谱峰去除,以去除未碎裂的母离子峰、母离子的系列衍生峰以及母离子的中性丢失峰。
-
公开(公告)号:CN101714187A
公开(公告)日:2010-05-26
申请号:CN200810223683.1
申请日:2008-10-07
Applicant: 中国科学院计算技术研究所
IPC: G06F19/00
Abstract: 本发明提供一种规模化蛋白质鉴定中的索引加速方法,包括:为肽序列设定质量区间;为计数窗口设定大小,并结合质量区间设定计数窗口的数目以及各个计数窗口的范围;对蛋白质数据库做模拟酶切,根据模拟酶切所得到的肽序列的质量计算肽序列在各个计数窗口内的数量;根据计算机内存的大小得到在计算机内存中一次可处理的肽序列的数量,结合肽序列在各个计数窗口内的数量,得到在计算机内存中一次处理的肽序列的质量范围段;对蛋白质数据库做模拟酶切,将所得到的在一个质量范围段内的肽序列保存在计算机内存中,并在计算机内存中完成对所保存肽序列的排序、去冗余以及建立词典和倒排表的操作;为每个质量范围段建立词典和倒排表。
-
-
-
-
-
-
-
-
-