-
公开(公告)号:CN102411666B
公开(公告)日:2014-04-16
申请号:CN201010292060.7
申请日:2010-09-26
Applicant: 中国科学院计算技术研究所
Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,其中该方法包括:步骤1,用并行处理方法,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。
-
公开(公告)号:CN102411680B
公开(公告)日:2014-03-26
申请号:CN201010292032.5
申请日:2010-09-26
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,其中该方法包括:步骤1,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,用并行处理方法,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。
-
公开(公告)号:CN101751416A
公开(公告)日:2010-06-23
申请号:CN200810227539.5
申请日:2008-11-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种对字符串进行排序的方法,包括:为所要排序的所有字符串中的字符分类,为一个类别的字符赋予一个数值,不同类别的字符所赋予的数值互不相同;结合各个字符所赋予的值,采用哥德尔编码方法对所要排序的各个字符串分别进行编码,一个字符串得到一个用数字表示的哥德尔编码值;对所要排序的所有字符串比较它们的哥德尔编码值,根据所述哥德尔编码值间的大小,对所述字符串做排序操作。本发明采用哥德尔编码方法将字符串映射成用浮点数表示的哥德尔编码值,然后通过对所述的哥德尔编码值的排序实现对字符串的排序,显著提高了排序效率。
-
公开(公告)号:CN111524549A
公开(公告)日:2020-08-11
申请号:CN202010244337.2
申请日:2020-03-31
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统,其流程包括质谱的预处理、蛋白质变体的鉴定和可信度打分,其中在质谱的预处理过程中增加母离子在多电荷状态下理论与实验同位素模式匹配误差之和作为特征进行母离子候选电荷范围的剪枝及候选母离子的打分排序,在蛋白质变体的鉴定过程中使用序列标签技术获取候选蛋白质,并使用母离子质量约束,及蛋白质枚举的两翼标签和质谱上提取的标签来获取所有可能的两端截断的候选蛋白质序列,最后使用滑动窗口技术进行优化。本发明通过以上技术创新,能够在鉴定系统维持高效的基础上,提高了鉴定算法的灵敏度和速度,增加了可检测蛋白质的数量范围。
-
公开(公告)号:CN107563148A
公开(公告)日:2018-01-09
申请号:CN201710701999.6
申请日:2017-08-16
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统,包括统计碎裂位点,挖掘碎裂模式。在待测蛋白质样品的完整数据集鉴定结果中统计强度最高多根谱峰匹配到的氨基酸位点,用于离子索引表的创建。对C端碎裂的位点和N端碎裂的位点处产生的碎片离子建立倒排索引表。对于每张谱图,去除母离子峰后,提取强度最高的多根谱峰作为查询谱峰,检索离子索引表获取候选蛋白质。粗打分过滤候选蛋白质,其中粗打分采用了改进的BM25算法,并考虑了N/C端可变修饰和互补离子。本发明通过上述技术点,能兼顾高效蛋白质鉴定效率和解析率,尤其对于碎裂不是很充分的质谱数据,效果更为明显。
-
公开(公告)号:CN106033501A
公开(公告)日:2016-10-19
申请号:CN201510112890.X
申请日:2015-03-16
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明提供一种交联二肽快速鉴定方法,包括:1)提取待鉴定串联谱图中的有效谱峰,根据各个有效谱峰对应的质量,查找碎片索引得到相应的肽段序列作为候选α肽序列,其中所述碎片索引记录了各个碎片质量及其对应的肽段序列;2)对于每个候选α肽序列,根据所述待鉴定串联谱图的母离子质量计算相应的β肽质量,进而得到相应的候选β肽序列,将候选α肽序列和相应的候选β肽序列组合得到候选交联二肽;3)将步骤2)所得的候选交联二肽与串联谱图进行精细匹配,得出鉴定结果。本发明不需使用特殊交联剂;搜索速度快,鉴定效率高;搜索灵敏度高。
-
公开(公告)号:CN104134015A
公开(公告)日:2014-11-05
申请号:CN201410360277.5
申请日:2014-07-25
Applicant: 中国科学院计算技术研究所
IPC: G06F19/10
Abstract: 本发明提供一种蛋白质翻译后修饰的定位方法,包括对于一条蛋白质序列,计算发生的修饰的总质量,得到该总质量对应的一个或多个修饰组合;将与所述蛋白质序列上的每个氨基酸对应的一个或多个修饰集合作为图中的顶点,根据所述一个或多个修饰组合连接该顶点,并且根据与所述蛋白质序列对应的谱图设置该顶点的权值。其中,所述修饰集合是从所述蛋白质序列的第一个氨基酸到对应的氨基酸上能够发生的修饰的集合并且是所述一个或多个修饰组合中的一个修饰组合的子集。所述方法还包括根据路径上所有顶点的权值选择所述图中的路径,并且将该路径转换为修饰位点信息。本发明提高了对修饰位点的定位速度,并且同时支持用户指定的任意修饰。
-
公开(公告)号:CN102467616B
公开(公告)日:2014-07-30
申请号:CN201010546475.2
申请日:2010-11-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种用后缀数组加速大规模蛋白质鉴定的方法及其系统,其中该方法包括:步骤1,根据数据库中的蛋白质序列创建相应的后缀数组,并根据所述后缀数组推断与所述蛋白质序列相应的最长公共前缀;步骤2,基于最长公共前缀和酶切规则,对所述蛋白质序列进行在线酶切,得到非冗余肽;步骤3,根据串联质谱、所述非冗余肽进行肽谱匹配鉴定,并利用鉴定到的肽推断对应的蛋白质序列。本发明达到了去掉冗余的肽和快速查询的目的,提高了蛋白质的鉴定速度,同时,这种方法无损精度,所需要的时间和空间都很少,并且使用比较方便。
-
公开(公告)号:CN101871945B
公开(公告)日:2013-05-08
申请号:CN201010208640.3
申请日:2010-06-13
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种谱图数据库的生成方法,包括:选取已解析的实验串联质谱谱图,所述已解析的串联质谱谱图中包括母离子肽序列、电荷、修饰类型和位点在内的信息;从所述已解析的实验串联质谱谱图中去除冗余谱图,得到代表谱;将所述代表谱所对应的母离子肽序列按理论碎裂模式进行划分,得到与所述代表谱相对应的理论谱;合并所述代表谱与所对应的理论谱,得到优化谱;对所述优化谱做谱峰标注,由谱峰标注后的优化谱生成谱图数据库。本发明还提供了一种串联质谱谱图鉴定方法。本发明在将候选谱与待解析串联质谱谱图匹配的过程中,考虑了可能由潜在修饰引入的谱峰质荷比偏移,使得含修饰的碎片离子谱峰得到匹配,达到更好的修饰谱图鉴定效果。
-
公开(公告)号:CN102043011B
公开(公告)日:2012-10-31
申请号:CN201010515241.1
申请日:2010-10-20
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
Abstract: 本发明提供一种电子转运裂解质谱预处理方法,包括:计算母离子的质荷比和电荷状态;计算母离子峰及其同位素峰在电子转运裂解质谱中可能出现的区域;计算母离子的系列衍生峰在电子转运裂解质谱中可能出现的区域;计算母离子的中性丢失峰在电子转运裂解质谱中可能出现的区域;将所述电子转运裂解质谱中由计算得到的区域中的谱峰去除,以去除未碎裂的母离子峰、母离子的系列衍生峰以及母离子的中性丢失峰。
-
-
-
-
-
-
-
-
-