-
公开(公告)号:CN115019889B
公开(公告)日:2024-11-26
申请号:CN202210678907.8
申请日:2022-06-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种化学探针鉴定与评估方法、装置,所述方法包括:对经过轻重同位素标记的给定化学探针质谱实验数据集搜索,确定高丰度蛋白质的常见质量修饰数据集;对所述常见质量修饰数据集通过盲搜,确定含有未知质量修饰的谱图作为候选未知质量修饰数据集;对所述候选未知质量修饰数据集通过可信度评估,筛选出高可信度未知质量修饰数据集;将所述常见质量修饰数据集与高可信度未知质量修饰数据集结合后,通过限定式搜索得到目标未知质量修饰。通过该方法在保证可信度的条件下,对目标未知质量修饰能够进行精准刻画和有效评估。
-
公开(公告)号:CN115019889A
公开(公告)日:2022-09-06
申请号:CN202210678907.8
申请日:2022-06-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种化学探针鉴定与评估方法、装置,所述方法包括:对经过轻重同位素标记的给定化学探针质谱实验数据集搜索,确定高丰度蛋白质的常见质量修饰数据集;对所述常见质量修饰数据集通过盲搜,确定含有未知质量修饰的谱图作为候选未知质量修饰数据集;对所述候选未知质量修饰数据集通过可信度评估,筛选出高可信度未知质量修饰数据集;将所述常见质量修饰数据集与高可信度未知质量修饰数据集结合后,通过限定式搜索得到目标未知质量修饰。通过该方法在保证可信度的条件下,对目标未知质量修饰能够进行精准刻画和有效评估。
-
公开(公告)号:CN111524549A
公开(公告)日:2020-08-11
申请号:CN202010244337.2
申请日:2020-03-31
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统,其流程包括质谱的预处理、蛋白质变体的鉴定和可信度打分,其中在质谱的预处理过程中增加母离子在多电荷状态下理论与实验同位素模式匹配误差之和作为特征进行母离子候选电荷范围的剪枝及候选母离子的打分排序,在蛋白质变体的鉴定过程中使用序列标签技术获取候选蛋白质,并使用母离子质量约束,及蛋白质枚举的两翼标签和质谱上提取的标签来获取所有可能的两端截断的候选蛋白质序列,最后使用滑动窗口技术进行优化。本发明通过以上技术创新,能够在鉴定系统维持高效的基础上,提高了鉴定算法的灵敏度和速度,增加了可检测蛋白质的数量范围。
-
公开(公告)号:CN106248844B
公开(公告)日:2018-05-04
申请号:CN201610941299.X
申请日:2016-10-25
Applicant: 中国科学院计算技术研究所
IPC: G01N30/86
Abstract: 本发明提出一种肽段液相色谱保留时间预测方法及系统,涉及生物信息学,该方法包括对原始质谱数据文件进行搜索,获取肽段‑谱图匹配作为鉴定结果,对于所述鉴定结果中FDR小于1%的来自目标库的肽段‑谱图匹配,提取肽段‑谱图匹配中相应肽段的实验保留时间,并设置训练样本与测试样本;使用所述训练样本,将带有修饰的氨基酸作为新氨基酸,建立多元线性回归模型,使用梯度下降法求解每种氨基酸的保留系数;对所述训练样本中的每条肽段,提取56维特征,并计算相应的特征值;建立预测模型,对所述测试样本中已知序列的肽段进行保留时间预测。本发明可以用于不同色谱条件下带有修饰的肽段的保留时间预测,大大提升了速度,在不同的数据集合上与Elude对比,速度加快了30倍以上。
-
公开(公告)号:CN107729719A
公开(公告)日:2018-02-23
申请号:CN201710913734.2
申请日:2017-09-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提一种从头测序方法,该方法包括:在通过酶切产生的两个数据集中查找镜像肽段对应的镜像谱图;从所述镜像谱图中检测高可信谱峰和普通谱峰;根据所述高可信谱峰和普通谱峰构建有向无环图,其中,所述高可信谱峰对应的结点是高可信结点,普通谱峰对应的结点是普通结点;基于所构建的有向无环图生成候选肽段。本发明的方法利用镜像谱图相互佐证,能够提高肽段从头测序的准确率。
-
公开(公告)号:CN107563148A
公开(公告)日:2018-01-09
申请号:CN201710701999.6
申请日:2017-08-16
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统,包括统计碎裂位点,挖掘碎裂模式。在待测蛋白质样品的完整数据集鉴定结果中统计强度最高多根谱峰匹配到的氨基酸位点,用于离子索引表的创建。对C端碎裂的位点和N端碎裂的位点处产生的碎片离子建立倒排索引表。对于每张谱图,去除母离子峰后,提取强度最高的多根谱峰作为查询谱峰,检索离子索引表获取候选蛋白质。粗打分过滤候选蛋白质,其中粗打分采用了改进的BM25算法,并考虑了N/C端可变修饰和互补离子。本发明通过上述技术点,能兼顾高效蛋白质鉴定效率和解析率,尤其对于碎裂不是很充分的质谱数据,效果更为明显。
-
公开(公告)号:CN106033501A
公开(公告)日:2016-10-19
申请号:CN201510112890.X
申请日:2015-03-16
Applicant: 中国科学院计算技术研究所
IPC: G06F19/18
Abstract: 本发明提供一种交联二肽快速鉴定方法,包括:1)提取待鉴定串联谱图中的有效谱峰,根据各个有效谱峰对应的质量,查找碎片索引得到相应的肽段序列作为候选α肽序列,其中所述碎片索引记录了各个碎片质量及其对应的肽段序列;2)对于每个候选α肽序列,根据所述待鉴定串联谱图的母离子质量计算相应的β肽质量,进而得到相应的候选β肽序列,将候选α肽序列和相应的候选β肽序列组合得到候选交联二肽;3)将步骤2)所得的候选交联二肽与串联谱图进行精细匹配,得出鉴定结果。本发明不需使用特殊交联剂;搜索速度快,鉴定效率高;搜索灵敏度高。
-
公开(公告)号:CN104215729A
公开(公告)日:2014-12-17
申请号:CN201410406562.6
申请日:2014-08-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种串联质谱母离子检测模型训练方法,包括下列步骤:1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母离子;2)提取每个二级谱图-候选母离子组合的特征向量,并根据二级谱图和候选母离子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度和虚拟色谱相似度;3)将所有二级谱图-候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。本发明还提供了相应的母离子检测方法。本发明能够提高母离子召回率并提高母离子的检测速度。
-
公开(公告)号:CN104134015A
公开(公告)日:2014-11-05
申请号:CN201410360277.5
申请日:2014-07-25
Applicant: 中国科学院计算技术研究所
IPC: G06F19/10
Abstract: 本发明提供一种蛋白质翻译后修饰的定位方法,包括对于一条蛋白质序列,计算发生的修饰的总质量,得到该总质量对应的一个或多个修饰组合;将与所述蛋白质序列上的每个氨基酸对应的一个或多个修饰集合作为图中的顶点,根据所述一个或多个修饰组合连接该顶点,并且根据与所述蛋白质序列对应的谱图设置该顶点的权值。其中,所述修饰集合是从所述蛋白质序列的第一个氨基酸到对应的氨基酸上能够发生的修饰的集合并且是所述一个或多个修饰组合中的一个修饰组合的子集。所述方法还包括根据路径上所有顶点的权值选择所述图中的路径,并且将该路径转换为修饰位点信息。本发明提高了对修饰位点的定位速度,并且同时支持用户指定的任意修饰。
-
公开(公告)号:CN102467616B
公开(公告)日:2014-07-30
申请号:CN201010546475.2
申请日:2010-11-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种用后缀数组加速大规模蛋白质鉴定的方法及其系统,其中该方法包括:步骤1,根据数据库中的蛋白质序列创建相应的后缀数组,并根据所述后缀数组推断与所述蛋白质序列相应的最长公共前缀;步骤2,基于最长公共前缀和酶切规则,对所述蛋白质序列进行在线酶切,得到非冗余肽;步骤3,根据串联质谱、所述非冗余肽进行肽谱匹配鉴定,并利用鉴定到的肽推断对应的蛋白质序列。本发明达到了去掉冗余的肽和快速查询的目的,提高了蛋白质的鉴定速度,同时,这种方法无损精度,所需要的时间和空间都很少,并且使用比较方便。
-
-
-
-
-
-
-
-
-