一种肽段液相色谱保留时间预测方法及系统

    公开(公告)号:CN106248844A

    公开(公告)日:2016-12-21

    申请号:CN201610941299.X

    申请日:2016-10-25

    CPC classification number: G01N30/86

    Abstract: 本发明提出一种肽段液相色谱保留时间预测方法及系统,涉及生物信息学,该方法包括对原始质谱数据文件进行搜索,获取肽段-谱图匹配作为鉴定结果,对于所述鉴定结果中FDR小于1%的来自目标库的肽段-谱图匹配,提取肽段-谱图匹配中相应肽段的实验保留时间,并设置训练样本与测试样本;使用所述训练样本,将带有修饰的氨基酸作为新氨基酸,建立多元线性回归模型,使用梯度下降法求解每种氨基酸的保留系数;对所述训练样本中的每条肽段,提取56维特征,并计算相应的特征值;建立预测模型,对所述测试样本中已知序列的肽段进行保留时间预测。本发明可以用于不同色谱条件下带有修饰的肽段的保留时间预测,大大提升了速度,在不同的数据集合上与Elude对比,速度加快了30倍以上。

    一种串联质谱谱图鉴定方法

    公开(公告)号:CN104182658A

    公开(公告)日:2014-12-03

    申请号:CN201410382707.3

    申请日:2014-08-06

    Abstract: 本发明提供一种串联质谱谱图鉴定方法,其特征在于,包括下列步骤:1)对于待鉴定谱图数据集中的每张谱图,分别在全局序列库中进行限制性搜索,获得各谱图的匹配肽段;2)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,获得与一部分谱图相匹配的带修饰的肽段,并获得所带修饰的质量和误差区间;3)对于待鉴定谱图数据集中的每张谱图,根据步骤2)所匹配的修饰的质量和误差区间以及当前待鉴定谱图的质量,设定限制性搜索区间,并在全局序列库中进行搜索,获得最终的匹配结果。本发明能够提高串联质谱谱图鉴定的鉴定率和准确度,并且具有较高的搜索速度。

    一种检测差异表达蛋白质的方法

    公开(公告)号:CN103776891A

    公开(公告)日:2014-05-07

    申请号:CN201310397694.2

    申请日:2013-09-04

    Abstract: 本发明涉及一种检测差异表达蛋白质的方法,面向定量蛋白质组学中的基于一级谱图信息的标记和非标记的相对定量数据分析,包括肽谱匹配、可信度评价、肽段信号提取、肽段比值计算、蛋白质比值计算、统计学分析,根据某蛋白质在两种或多种样品中对应的质谱信号强度比值判断其是否是差异表达蛋白质。对于近百GB的规模的质谱实验采集的数据,快速地自动化分析,对不同蛋白质在质谱仪中的信号尽可能精准地提取蛋白质信号;从统计学意义上确定蛋白质差异表达,并对结果的准确性进行评价。

    一种蛋白质翻译后修饰的发现方法

    公开(公告)号:CN101477089B

    公开(公告)日:2012-06-13

    申请号:CN200910076588.8

    申请日:2009-01-09

    Abstract: 本发明提供一种蛋白质翻译后修饰的发现方法,包括:利用蛋白质样品的实验串联质谱数据中的肽色谱保留时间以及肽质量计算所有谱图之间的谱图差异向量;建立可能包含修饰质量的候选修饰质量区间;在每个所述的候选修饰质量区间上,估计所述谱图差异向量的混合分布,计算所述混合分布中各个分布的标准差,由所述标准差确定所述候选修饰质量区间内由所述蛋白质翻译后修饰导致的分布;计算由所述蛋白质翻译后修饰导致的分布的均值,由所述均值的质量分量得到所述蛋白质翻译后修饰的精确质量实验值,由所述均值的保留时间分量得到所述蛋白质翻译后修饰对肽色谱保留时间的影响。本发明的方法具有高效、准确、鲁棒的优点。

    一种蛋白质鉴定的大规模分布式并行加速方法及其系统

    公开(公告)号:CN102411680A

    公开(公告)日:2012-04-11

    申请号:CN201010292032.5

    申请日:2010-09-26

    Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,其中该方法包括:步骤1,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,用并行处理方法,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。

    一种蛋白质翻译后修饰的发现方法

    公开(公告)号:CN101477089A

    公开(公告)日:2009-07-08

    申请号:CN200910076588.8

    申请日:2009-01-09

    Abstract: 本发明提供一种蛋白质翻译后修饰的发现方法,包括:利用蛋白质样品的实验串联质谱数据中的肽色谱保留时间以及肽质量计算所有谱图之间的谱图差异向量;建立可能包含修饰质量的候选修饰质量区间;在每个所述的候选修饰质量区间上,估计所述谱图差异向量的混合分布,计算所述混合分布中各个分布的标准差,由所述标准差确定所述候选修饰质量区间内由所述蛋白质翻译后修饰导致的分布;计算由所述蛋白质翻译后修饰导致的分布的均值,由所述均值的质量分量得到所述蛋白质翻译后修饰的精确质量实验值,由所述均值的保留时间分量得到所述蛋白质翻译后修饰对肽色谱保留时间的影响。本发明的方法具有高效、准确、鲁棒的优点。

    一种基于正则表达式的N糖结构库构建方法与系统

    公开(公告)号:CN108052801B

    公开(公告)日:2020-06-26

    申请号:CN201711235673.5

    申请日:2017-11-30

    Abstract: 本发明涉及一种基于正则表达式的N糖结构库构建方法与系统,包括:将五糖核心中每个单糖作为一个节点,为各节点进行编号以明确节点所代表的单糖类别,根据各节点间的连接关系和编号,计算五糖核心中每个节点的正则表达式,并将所有正则表达式集合,作为x糖结构字符串码,其中x为糖结构所具有的节点数;以正则表达式为基础,通过枚举法生成节点数目为x+1的糖结构的字符串码,作为x+1糖结构字符串码;根据x+1糖结构字符串码,对生成的节点数目为x+1的各个糖结构去冗余并判断其结构的合理性,将合理且没有冗余的x+1糖结构输出到文本文件中,并将文本文件作为N糖结构库。本发明节省了枚举糖库过程中的空间开销,还有效地提高了糖结构的枚举速度。

    一种基于离子索引的整体蛋白质鉴定方法与系统

    公开(公告)号:CN107563148B

    公开(公告)日:2020-06-05

    申请号:CN201710701999.6

    申请日:2017-08-16

    Abstract: 本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统,包括统计碎裂位点,挖掘碎裂模式。在待测蛋白质样品的完整数据集鉴定结果中统计强度最高多根谱峰匹配到的氨基酸位点,用于离子索引表的创建。对C端碎裂的位点和N端碎裂的位点处产生的碎片离子建立倒排索引表。对于每张谱图,去除母离子峰后,提取强度最高的多根谱峰作为查询谱峰,检索离子索引表获取候选蛋白质。粗打分过滤候选蛋白质,其中粗打分采用了改进的BM25算法,并考虑了N/C端可变修饰和互补离子。本发明通过上述技术点,能兼顾高效蛋白质鉴定效率和解析率,尤其对于碎裂不是很充分的质谱数据,效果更为明显。

    一种对多肽交联肽段进行质谱鉴定的假发现率控制方法

    公开(公告)号:CN106198706B

    公开(公告)日:2019-02-01

    申请号:CN201610497295.7

    申请日:2016-06-29

    Abstract: 本发明提供一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,包括:1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;数据库既包括真实肽段结构也包括诱饵肽段结构;2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n‑k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;3)计算n肽交联的假发现率FDR(n)。本发明更加准确地估计多肽交联肽段质谱鉴定的假发现率;能够帮助提高鉴定的准确率和鉴定率。

Patent Agency Ranking