-
公开(公告)号:CN101477089A
公开(公告)日:2009-07-08
申请号:CN200910076588.8
申请日:2009-01-09
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种蛋白质翻译后修饰的发现方法,包括:利用蛋白质样品的实验串联质谱数据中的肽色谱保留时间以及肽质量计算所有谱图之间的谱图差异向量;建立可能包含修饰质量的候选修饰质量区间;在每个所述的候选修饰质量区间上,估计所述谱图差异向量的混合分布,计算所述混合分布中各个分布的标准差,由所述标准差确定所述候选修饰质量区间内由所述蛋白质翻译后修饰导致的分布;计算由所述蛋白质翻译后修饰导致的分布的均值,由所述均值的质量分量得到所述蛋白质翻译后修饰的精确质量实验值,由所述均值的保留时间分量得到所述蛋白质翻译后修饰对肽色谱保留时间的影响。本发明的方法具有高效、准确、鲁棒的优点。
-
公开(公告)号:CN102467616B
公开(公告)日:2014-07-30
申请号:CN201010546475.2
申请日:2010-11-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种用后缀数组加速大规模蛋白质鉴定的方法及其系统,其中该方法包括:步骤1,根据数据库中的蛋白质序列创建相应的后缀数组,并根据所述后缀数组推断与所述蛋白质序列相应的最长公共前缀;步骤2,基于最长公共前缀和酶切规则,对所述蛋白质序列进行在线酶切,得到非冗余肽;步骤3,根据串联质谱、所述非冗余肽进行肽谱匹配鉴定,并利用鉴定到的肽推断对应的蛋白质序列。本发明达到了去掉冗余的肽和快速查询的目的,提高了蛋白质的鉴定速度,同时,这种方法无损精度,所需要的时间和空间都很少,并且使用比较方便。
-
公开(公告)号:CN101871945B
公开(公告)日:2013-05-08
申请号:CN201010208640.3
申请日:2010-06-13
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种谱图数据库的生成方法,包括:选取已解析的实验串联质谱谱图,所述已解析的串联质谱谱图中包括母离子肽序列、电荷、修饰类型和位点在内的信息;从所述已解析的实验串联质谱谱图中去除冗余谱图,得到代表谱;将所述代表谱所对应的母离子肽序列按理论碎裂模式进行划分,得到与所述代表谱相对应的理论谱;合并所述代表谱与所对应的理论谱,得到优化谱;对所述优化谱做谱峰标注,由谱峰标注后的优化谱生成谱图数据库。本发明还提供了一种串联质谱谱图鉴定方法。本发明在将候选谱与待解析串联质谱谱图匹配的过程中,考虑了可能由潜在修饰引入的谱峰质荷比偏移,使得含修饰的碎片离子谱峰得到匹配,达到更好的修饰谱图鉴定效果。
-
公开(公告)号:CN102043011B
公开(公告)日:2012-10-31
申请号:CN201010515241.1
申请日:2010-10-20
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
Abstract: 本发明提供一种电子转运裂解质谱预处理方法,包括:计算母离子的质荷比和电荷状态;计算母离子峰及其同位素峰在电子转运裂解质谱中可能出现的区域;计算母离子的系列衍生峰在电子转运裂解质谱中可能出现的区域;计算母离子的中性丢失峰在电子转运裂解质谱中可能出现的区域;将所述电子转运裂解质谱中由计算得到的区域中的谱峰去除,以去除未碎裂的母离子峰、母离子的系列衍生峰以及母离子的中性丢失峰。
-
公开(公告)号:CN102467616A
公开(公告)日:2012-05-23
申请号:CN201010546475.2
申请日:2010-11-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种用后缀数组加速大规模蛋白质鉴定的方法及其系统,其中该方法包括:步骤1,根据数据库中的蛋白质序列创建相应的后缀数组,并根据所述后缀数组推断与所述蛋白质序列相应的最长公共前缀;步骤2,基于最长公共前缀和酶切规则,对所述蛋白质序列进行在线酶切,得到非冗余肽;步骤3,根据串联质谱、所述非冗余肽进行肽谱匹配鉴定,并利用鉴定到的肽推断对应的蛋白质序列。本发明达到了去掉冗余的肽和快速查询的目的,提高了蛋白质的鉴定速度,同时,这种方法无损精度,所需要的时间和空间都很少,并且使用比较方便。
-
公开(公告)号:CN102411679A
公开(公告)日:2012-04-11
申请号:CN201010292031.0
申请日:2010-09-26
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,该方法包括:步骤1,用并行处理方法,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,用并行处理方法,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。
-
公开(公告)号:CN101714187B
公开(公告)日:2011-09-28
申请号:CN200810223683.1
申请日:2008-10-07
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明提供一种规模化蛋白质鉴定中的索引加速方法,包括:为肽序列设定质量区间;为计数窗口设定大小,并结合质量区间设定计数窗口的数目以及各个计数窗口的范围;对蛋白质数据库做模拟酶切,根据模拟酶切所得到的肽序列的质量计算肽序列在各个计数窗口内的数量;根据计算机内存的大小得到在计算机内存中一次可处理的肽序列的数量,结合肽序列在各个计数窗口内的数量,得到在计算机内存中一次处理的肽序列的质量范围段;对蛋白质数据库做模拟酶切,将所得到的在一个质量范围段内的肽序列保存在计算机内存中,并在计算机内存中完成对所保存肽序列的排序、去冗余以及建立词典和倒排表的操作;为每个质量范围段建立词典和倒排表。
-
公开(公告)号:CN101871945A
公开(公告)日:2010-10-27
申请号:CN201010208640.3
申请日:2010-06-13
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种谱图数据库的生成方法,包括:选取已解析的实验串联质谱谱图,所述已解析的串联质谱谱图中包括母离子肽序列、电荷、修饰类型和位点在内的信息;从所述已解析的实验串联质谱谱图中去除冗余谱图,得到代表谱;将所述代表谱所对应的母离子肽序列按理论碎裂模式进行划分,得到与所述代表谱相对应的理论谱;合并所述代表谱与所对应的理论谱,得到优化谱;对所述优化谱做谱峰标注,由谱峰标注后的优化谱生成谱图数据库。本发明还提供了一种串联质谱谱图鉴定方法。本发明在将候选谱与待解析串联质谱谱图匹配的过程中,考虑了可能由潜在修饰引入的谱峰质荷比偏移,使得含修饰的碎片离子谱峰得到匹配,达到更好的修饰谱图鉴定效果。
-
公开(公告)号:CN1769891A
公开(公告)日:2006-05-10
申请号:CN200410088779.3
申请日:2004-11-03
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种使用串联质谱数据鉴定肽的方法,包括步骤:将要被鉴定的肽进行实验碎裂以生成实验串联质谱;将数据库中的多个候选肽进行理论碎裂以生成多个理论串联质谱;用径向基函数核分别计算多个理论串联质谱与实验串联质谱的相似度,该径向基函数包括一指数部分;根据所计算的相似度选取出与实验串联质谱最相似的理论串联质谱所对应的肽作为鉴定结果。本发明的使用串联质谱数据鉴定肽的方法采用径向基函数核来评价多个理论串联质谱与实验串联质谱的相似度,并进一步在径向基函数核的指数部分通过对连续碎片离子的求和来强调连续碎片离子的正相关特性,比现有技术中鉴定肽的方法具有更高的准确率,明显降低了假阳性结果。
-
公开(公告)号:CN102411679B
公开(公告)日:2014-04-16
申请号:CN201010292031.0
申请日:2010-09-26
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,该方法包括:步骤1,用并行处理方法,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,用并行处理方法,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。
-
-
-
-
-
-
-
-
-