一种利用质谱图库鉴定蛋白质及其修饰的方法

    公开(公告)号:CN101871945B

    公开(公告)日:2013-05-08

    申请号:CN201010208640.3

    申请日:2010-06-13

    Abstract: 本发明提供一种谱图数据库的生成方法,包括:选取已解析的实验串联质谱谱图,所述已解析的串联质谱谱图中包括母离子肽序列、电荷、修饰类型和位点在内的信息;从所述已解析的实验串联质谱谱图中去除冗余谱图,得到代表谱;将所述代表谱所对应的母离子肽序列按理论碎裂模式进行划分,得到与所述代表谱相对应的理论谱;合并所述代表谱与所对应的理论谱,得到优化谱;对所述优化谱做谱峰标注,由谱峰标注后的优化谱生成谱图数据库。本发明还提供了一种串联质谱谱图鉴定方法。本发明在将候选谱与待解析串联质谱谱图匹配的过程中,考虑了可能由潜在修饰引入的谱峰质荷比偏移,使得含修饰的碎片离子谱峰得到匹配,达到更好的修饰谱图鉴定效果。

    电子转运裂解质谱预处理与鉴定方法

    公开(公告)号:CN102043011B

    公开(公告)日:2012-10-31

    申请号:CN201010515241.1

    申请日:2010-10-20

    Abstract: 本发明提供一种电子转运裂解质谱预处理方法,包括:计算母离子的质荷比和电荷状态;计算母离子峰及其同位素峰在电子转运裂解质谱中可能出现的区域;计算母离子的系列衍生峰在电子转运裂解质谱中可能出现的区域;计算母离子的中性丢失峰在电子转运裂解质谱中可能出现的区域;将所述电子转运裂解质谱中由计算得到的区域中的谱峰去除,以去除未碎裂的母离子峰、母离子的系列衍生峰以及母离子的中性丢失峰。

    一种用后缀数组加速大规模蛋白质鉴定的方法及其系统

    公开(公告)号:CN102467616A

    公开(公告)日:2012-05-23

    申请号:CN201010546475.2

    申请日:2010-11-15

    Abstract: 本发明公开了一种用后缀数组加速大规模蛋白质鉴定的方法及其系统,其中该方法包括:步骤1,根据数据库中的蛋白质序列创建相应的后缀数组,并根据所述后缀数组推断与所述蛋白质序列相应的最长公共前缀;步骤2,基于最长公共前缀和酶切规则,对所述蛋白质序列进行在线酶切,得到非冗余肽;步骤3,根据串联质谱、所述非冗余肽进行肽谱匹配鉴定,并利用鉴定到的肽推断对应的蛋白质序列。本发明达到了去掉冗余的肽和快速查询的目的,提高了蛋白质的鉴定速度,同时,这种方法无损精度,所需要的时间和空间都很少,并且使用比较方便。

    一种蛋白质鉴定的大规模分布式并行加速方法及其系统

    公开(公告)号:CN102411679A

    公开(公告)日:2012-04-11

    申请号:CN201010292031.0

    申请日:2010-09-26

    Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,该方法包括:步骤1,用并行处理方法,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,用并行处理方法,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。

    一种规模化蛋白质鉴定中的索引加速方法及相应的系统

    公开(公告)号:CN101714187B

    公开(公告)日:2011-09-28

    申请号:CN200810223683.1

    申请日:2008-10-07

    Abstract: 本发明提供一种规模化蛋白质鉴定中的索引加速方法,包括:为肽序列设定质量区间;为计数窗口设定大小,并结合质量区间设定计数窗口的数目以及各个计数窗口的范围;对蛋白质数据库做模拟酶切,根据模拟酶切所得到的肽序列的质量计算肽序列在各个计数窗口内的数量;根据计算机内存的大小得到在计算机内存中一次可处理的肽序列的数量,结合肽序列在各个计数窗口内的数量,得到在计算机内存中一次处理的肽序列的质量范围段;对蛋白质数据库做模拟酶切,将所得到的在一个质量范围段内的肽序列保存在计算机内存中,并在计算机内存中完成对所保存肽序列的排序、去冗余以及建立词典和倒排表的操作;为每个质量范围段建立词典和倒排表。

    谱库的生成方法和串联质谱谱图鉴定方法

    公开(公告)号:CN101871945A

    公开(公告)日:2010-10-27

    申请号:CN201010208640.3

    申请日:2010-06-13

    Abstract: 本发明提供一种谱图数据库的生成方法,包括:选取已解析的实验串联质谱谱图,所述已解析的串联质谱谱图中包括母离子肽序列、电荷、修饰类型和位点在内的信息;从所述已解析的实验串联质谱谱图中去除冗余谱图,得到代表谱;将所述代表谱所对应的母离子肽序列按理论碎裂模式进行划分,得到与所述代表谱相对应的理论谱;合并所述代表谱与所对应的理论谱,得到优化谱;对所述优化谱做谱峰标注,由谱峰标注后的优化谱生成谱图数据库。本发明还提供了一种串联质谱谱图鉴定方法。本发明在将候选谱与待解析串联质谱谱图匹配的过程中,考虑了可能由潜在修饰引入的谱峰质荷比偏移,使得含修饰的碎片离子谱峰得到匹配,达到更好的修饰谱图鉴定效果。

    基于质谱数据同位素模式的质谱有效峰选取方法

    公开(公告)号:CN101055558B

    公开(公告)日:2010-10-06

    申请号:CN200610072168.9

    申请日:2006-04-14

    Abstract: 本发明公开了一种基于质谱数据中呈现的同位素模式来提取质谱中有效的离子单同位素峰的方法。该方法步骤包括:1)确定质谱的噪音基线;2)有效峰的特征选取;3)计算谱峰的由步骤2)中所选择的各个特征对应的取值;4)从序列已知的质谱中,挑选样本进行学习,确定噪音、离子谱峰等不同类别的谱峰在上述特征上的表现,确定区分各类别谱峰的特征值的阈值,确定分类的规则;5)根据所学习到的规则对所有的质谱中的谱峰进行处理,挑选出离子的单同位素峰。本发明通过定义同位素模式概念并采用准确的公式计算离子的同位素模式的值来判断谱峰是否为有效峰,准确率更高,采用本方法极大地提高鉴定软件的搜索速度以及鉴定的可靠性。

    一种使用串联质谱数据鉴定肽的方法

    公开(公告)号:CN1769891A

    公开(公告)日:2006-05-10

    申请号:CN200410088779.3

    申请日:2004-11-03

    Abstract: 本发明公开了一种使用串联质谱数据鉴定肽的方法,包括步骤:将要被鉴定的肽进行实验碎裂以生成实验串联质谱;将数据库中的多个候选肽进行理论碎裂以生成多个理论串联质谱;用径向基函数核分别计算多个理论串联质谱与实验串联质谱的相似度,该径向基函数包括一指数部分;根据所计算的相似度选取出与实验串联质谱最相似的理论串联质谱所对应的肽作为鉴定结果。本发明的使用串联质谱数据鉴定肽的方法采用径向基函数核来评价多个理论串联质谱与实验串联质谱的相似度,并进一步在径向基函数核的指数部分通过对连续碎片离子的求和来强调连续碎片离子的正相关特性,比现有技术中鉴定肽的方法具有更高的准确率,明显降低了假阳性结果。

    一种基于离子索引的整体蛋白质鉴定方法

    公开(公告)号:CN111524549B

    公开(公告)日:2023-04-25

    申请号:CN202010244337.2

    申请日:2020-03-31

    Abstract: 本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统,其流程包括质谱的预处理、蛋白质变体的鉴定和可信度打分,其中在质谱的预处理过程中增加母离子在多电荷状态下理论与实验同位素模式匹配误差之和作为特征进行母离子候选电荷范围的剪枝及候选母离子的打分排序,在蛋白质变体的鉴定过程中使用序列标签技术获取候选蛋白质,并使用母离子质量约束,及蛋白质枚举的两翼标签和质谱上提取的标签来获取所有可能的两端截断的候选蛋白质序列,最后使用滑动窗口技术进行优化。本发明通过以上技术创新,能够在鉴定系统维持高效的基础上,提高了鉴定算法的灵敏度和速度,增加了可检测蛋白质的数量范围。

    一种基于半监督学习的交联质谱多谱排序方法

    公开(公告)号:CN106529204B

    公开(公告)日:2019-05-07

    申请号:CN201610905670.7

    申请日:2016-10-18

    Abstract: 本发明提供一种基于半监督学习的交联质谱多谱排序方法,包括:1)分别对每个谱图进行单谱匹配和排序,得到对应的最优的交联二肽单谱匹配结果;提取当前每一个肽谱匹配结果的多谱匹配特征向量,其中包括SVM分数、母离子误差比例特征和修饰比例特征等动态特征;2)在所得到的交联二肽匹配结果中,取FDR在预设的FDR阈值以内的属于正样本的结果构建正样本库,取所有负样本的结果构建反样本库;基于新的训练样本更新各个多谱匹配特征向量;3)训练SVM分类器;4)用本轮训练后的SVM分类器对所有交联二肽结果进行重打分;5)根据预设的迭代条件判断是否继续进行迭代,结束迭代时基于当前SVM分数输出多谱排序结果。本发明的多谱排序方法灵敏度高且性能稳定。

Patent Agency Ranking