-
公开(公告)号:CN102411679B
公开(公告)日:2014-04-16
申请号:CN201010292031.0
申请日:2010-09-26
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,该方法包括:步骤1,用并行处理方法,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,用并行处理方法,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。
-
公开(公告)号:CN102411666B
公开(公告)日:2014-04-16
申请号:CN201010292060.7
申请日:2010-09-26
Applicant: 中国科学院计算技术研究所
Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,其中该方法包括:步骤1,用并行处理方法,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。
-
公开(公告)号:CN102411680B
公开(公告)日:2014-03-26
申请号:CN201010292032.5
申请日:2010-09-26
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,其中该方法包括:步骤1,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,用并行处理方法,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。
-
公开(公告)号:CN101751416A
公开(公告)日:2010-06-23
申请号:CN200810227539.5
申请日:2008-11-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种对字符串进行排序的方法,包括:为所要排序的所有字符串中的字符分类,为一个类别的字符赋予一个数值,不同类别的字符所赋予的数值互不相同;结合各个字符所赋予的值,采用哥德尔编码方法对所要排序的各个字符串分别进行编码,一个字符串得到一个用数字表示的哥德尔编码值;对所要排序的所有字符串比较它们的哥德尔编码值,根据所述哥德尔编码值间的大小,对所述字符串做排序操作。本发明采用哥德尔编码方法将字符串映射成用浮点数表示的哥德尔编码值,然后通过对所述的哥德尔编码值的排序实现对字符串的排序,显著提高了排序效率。
-
公开(公告)号:CN111524549B
公开(公告)日:2023-04-25
申请号:CN202010244337.2
申请日:2020-03-31
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统,其流程包括质谱的预处理、蛋白质变体的鉴定和可信度打分,其中在质谱的预处理过程中增加母离子在多电荷状态下理论与实验同位素模式匹配误差之和作为特征进行母离子候选电荷范围的剪枝及候选母离子的打分排序,在蛋白质变体的鉴定过程中使用序列标签技术获取候选蛋白质,并使用母离子质量约束,及蛋白质枚举的两翼标签和质谱上提取的标签来获取所有可能的两端截断的候选蛋白质序列,最后使用滑动窗口技术进行优化。本发明通过以上技术创新,能够在鉴定系统维持高效的基础上,提高了鉴定算法的灵敏度和速度,增加了可检测蛋白质的数量范围。
-
公开(公告)号:CN106529204B
公开(公告)日:2019-05-07
申请号:CN201610905670.7
申请日:2016-10-18
Applicant: 中国科学院计算技术研究所
IPC: G16B15/00
Abstract: 本发明提供一种基于半监督学习的交联质谱多谱排序方法,包括:1)分别对每个谱图进行单谱匹配和排序,得到对应的最优的交联二肽单谱匹配结果;提取当前每一个肽谱匹配结果的多谱匹配特征向量,其中包括SVM分数、母离子误差比例特征和修饰比例特征等动态特征;2)在所得到的交联二肽匹配结果中,取FDR在预设的FDR阈值以内的属于正样本的结果构建正样本库,取所有负样本的结果构建反样本库;基于新的训练样本更新各个多谱匹配特征向量;3)训练SVM分类器;4)用本轮训练后的SVM分类器对所有交联二肽结果进行重打分;5)根据预设的迭代条件判断是否继续进行迭代,结束迭代时基于当前SVM分数输出多谱排序结果。本发明的多谱排序方法灵敏度高且性能稳定。
-
公开(公告)号:CN104182658B
公开(公告)日:2017-05-03
申请号:CN201410382707.3
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种串联质谱谱图鉴定方法,其特征在于,包括下列步骤:1)对于待鉴定谱图数据集中的每张谱图,分别在全局序列库中进行限制性搜索,获得各谱图的匹配肽段;2)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,获得与一部分谱图相匹配的带修饰的肽段,并获得所带修饰的质量和误差区间;3)对于待鉴定谱图数据集中的每张谱图,根据步骤2)所匹配的修饰的质量和误差区间以及当前待鉴定谱图的质量,设定限制性搜索区间,并在全局序列库中进行搜索,获得最终的匹配结果。本发明能够提高串联质谱谱图鉴定的鉴定率和准确度,并且具有较高的搜索速度。
-
公开(公告)号:CN103776891B
公开(公告)日:2017-03-29
申请号:CN201310397694.2
申请日:2013-09-04
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
Abstract: 本发明涉及一种检测差异表达蛋白质的方法,面向定量蛋白质组学中的基于一级谱图信息的标记和非标记的相对定量数据分析,包括肽谱匹配、可信度评价、肽段信号提取、肽段比值计算、蛋白质比值计算、统计学分析,根据某蛋白质在两种或多种样品中对应的质谱信号强度比值判断其是否是差异表达蛋白质。对于近百GB的规模的质谱实验采集的数据,快速地自动化分析,对不同蛋白质在质谱仪中的信号尽可能精准地提取蛋白质信号;从统计学意义上确定蛋白质差异表达,并对结果的准确性进行评价。
-
公开(公告)号:CN103678950B
公开(公告)日:2016-05-18
申请号:CN201210316345.9
申请日:2012-08-30
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明公开了一种开放式蛋白质鉴定的分布式加速方法及其系统,其中开放式蛋白质鉴定的分布式加速系统包括:蛋白库索引建立模块、谱图数据准备模块、查询打分模块、结果汇总输出模块。本发明提供的一种开放式蛋白质鉴定的分布式加速方法和系统,能有效利用集群资源,允许用户在蛋白质大库下不指定酶切和修饰的类型,或指定其中的任意类型进行蛋白质鉴定,有效的提高了蛋白质谱鉴定速度和解析率。
-
公开(公告)号:CN103810200B
公开(公告)日:2016-03-30
申请号:CN201210451907.0
申请日:2012-11-12
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明有关于一种开放式蛋白质鉴定的数据库搜索方法及其系统,其中该方法包括:步骤1,输入蛋白质序列,模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表,并根据该肽序列数据表建立索引文件;步骤2,输入质谱图,对每张质谱图,提取谱峰生成查询集合,查询所述索引文件,得到序列集合;步骤3,对每张质谱图及其对应的序列集合,根据修饰组合,生成候选肽段并打分;步骤4,对打分结果进行整合,并进行肽段到蛋白质的推断,得到鉴定结果。本发明允许用户不指定酶切和修饰的类型,或指定其中的任意类型进行蛋白质鉴定,用于解决任意类型的酶切和修饰的鉴定问题。
-
-
-
-
-
-
-
-
-