一种基于半监督学习的交联质谱多谱排序方法

    公开(公告)号:CN106529204A

    公开(公告)日:2017-03-22

    申请号:CN201610905670.7

    申请日:2016-10-18

    CPC classification number: G06F19/16

    Abstract: 本发明提供一种基于半监督学习的交联质谱多谱排序方法,包括:1)分别对每个谱图进行单谱匹配和排序,得到对应的最优的交联二肽单谱匹配结果;提取当前每一个肽谱匹配结果的多谱匹配特征向量,其中包括SVM分数、母离子误差比例特征和修饰比例特征等动态特征;2)在所得到的交联二肽匹配结果中,取FDR在预设的FDR阈值以内的属于正样本的结果构建正样本库,取所有负样本的结果构建反样本库;基于新的训练样本更新各个多谱匹配特征向量;3)训练SVM分类器;4)用本轮训练后的SVM分类器对所有交联二肽结果进行重打分;5)根据预设的迭代条件判断是否继续进行迭代,结束迭代时基于当前SVM分数输出多谱排序结果。本发明的多谱排序方法灵敏度高且性能稳定。

    一种完整糖肽鉴定的方法与系统

    公开(公告)号:CN106018535A

    公开(公告)日:2016-10-12

    申请号:CN201610309699.9

    申请日:2016-05-11

    CPC classification number: G01N27/62

    Abstract: 本发明提供一种完整糖肽鉴定的方法,包括:对于任一待鉴定的实测串联质谱,遍历糖链结构数据库,对于其中每个糖链结构:根据当前串联谱图的母离子质量,推断出碎裂测试中所有可能获得的糖肽Y离子的质量,进而计算匹配到当前二级谱图的谱峰的数目,并将这个匹配谱峰的数目作为对应情形下的糖肽Y离子与当前二级谱图匹配的粗打分结果;取粗打分前K名的糖链结构作为候选糖链结构;对于当前串联谱图,遍历所有的候选糖链结构,对于每一候选糖链结构进行实测谱和肽段的理论谱的谱谱匹配打分,以及实测谱和糖链结构的理论谱的谱谱匹配打分,进而得出糖肽结构鉴定结果。本发明能够提高完整糖肽规模化鉴定的可靠性且计算复杂度低。

    串联质谱数据母离子检测模型训练方法及母离子检测方法

    公开(公告)号:CN104215729B

    公开(公告)日:2016-09-28

    申请号:CN201410406562.6

    申请日:2014-08-18

    Abstract: 本发明提供一种串联质谱母离子检测模型训练方法,包括下列步骤:1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母离子;2)提取每个二级谱图‑候选母离子组合的特征向量,并根据二级谱图和候选母离子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度和虚拟色谱相似度;3)将所有二级谱图‑候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。本发明还提供了相应的母离子检测方法。本发明能够提高母离子召回率并提高母离子的检测速度。

    一种蛋白质鉴定的大规模分布式并行加速方法及其系统

    公开(公告)号:CN102411679B

    公开(公告)日:2014-04-16

    申请号:CN201010292031.0

    申请日:2010-09-26

    Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,该方法包括:步骤1,用并行处理方法,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,用并行处理方法,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。

    一种蛋白质鉴定的大规模分布式并行加速方法及其系统

    公开(公告)号:CN102411666B

    公开(公告)日:2014-04-16

    申请号:CN201010292060.7

    申请日:2010-09-26

    Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,其中该方法包括:步骤1,用并行处理方法,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。

    一种蛋白质鉴定的大规模分布式并行加速方法及其系统

    公开(公告)号:CN102411680B

    公开(公告)日:2014-03-26

    申请号:CN201010292032.5

    申请日:2010-09-26

    Abstract: 本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,其中该方法包括:步骤1,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,用并行处理方法,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。

    一种对字符串排序和查找的方法

    公开(公告)号:CN101751416A

    公开(公告)日:2010-06-23

    申请号:CN200810227539.5

    申请日:2008-11-28

    Abstract: 本发明提供一种对字符串进行排序的方法,包括:为所要排序的所有字符串中的字符分类,为一个类别的字符赋予一个数值,不同类别的字符所赋予的数值互不相同;结合各个字符所赋予的值,采用哥德尔编码方法对所要排序的各个字符串分别进行编码,一个字符串得到一个用数字表示的哥德尔编码值;对所要排序的所有字符串比较它们的哥德尔编码值,根据所述哥德尔编码值间的大小,对所述字符串做排序操作。本发明采用哥德尔编码方法将字符串映射成用浮点数表示的哥德尔编码值,然后通过对所述的哥德尔编码值的排序实现对字符串的排序,显著提高了排序效率。

    一种支持均匀交换的路由器交换结构及服务质量保证方法

    公开(公告)号:CN100461759C

    公开(公告)日:2009-02-11

    申请号:CN200510102968.6

    申请日:2005-09-16

    Abstract: 本发明公开了一种支持均匀交换的路由器交换结构,包括输入端口、输出端口和交换内核,输入端口通过交换内核与输出端口相连,交换内核的每个交叉点设有缓冲区,输入端口由输入缓冲区和调度器组成,一个输入缓冲区对应一种流,调度器将缓存在输入缓冲区中的流的信元发送到交换内核;交叉点缓冲区缓存特定流中的信元,每个交叉点缓冲区容量大小为4个信元;输出端口设有调度器,将对应交叉点缓冲区的信元均匀复用成一个流并输出。本发明的路由器交换结构无需采用交叉点缓冲区状态信息反馈机制,允许线卡至交换内核任意大小的往返延迟,保证100%的吞吐率,没有信元丢失,并且带宽公平性、信元的延迟和抖动均有界。

    一种质谱数据处理中噪音基线识别方法

    公开(公告)号:CN101055559A

    公开(公告)日:2007-10-17

    申请号:CN200610072169.3

    申请日:2006-04-14

    Abstract: 本发明公开了一种基于统计方法的质谱中噪音基线识别方法。该方法,包括步骤:1)按照谱峰强度分布性质将质谱谱峰至少分成两类;2)对上一步骤中的不同类别的谱峰分别计算其强度的分布参数;3)用谱峰类别的强度分布参数来刻画广义的噪音基线;4)对质谱中的每个谱峰,计算其与噪音基线的距离来判断其是否为有效的离子谱峰。本发明通过统计分类的方法,更能反映质谱噪音峰在强度上的真实分布,通过一个广义的噪音基线来描述质谱中的噪音的分布,形式灵活,提高了鉴定软件的搜索速度。

    基于质谱数据同位素模式的质谱有效峰选取方法

    公开(公告)号:CN101055558A

    公开(公告)日:2007-10-17

    申请号:CN200610072168.9

    申请日:2006-04-14

    Abstract: 本发明公开了一种基于质谱数据中呈现的同位素模式来提取质谱中有效的离子单同位素峰的方法。该方法步骤包括:1)确定质谱的噪音基线;2)有效峰的特征选取;3)计算谱峰的由步骤2)中所选择的各个特征对应的取值;4)从序列已知的质谱中,挑选样本进行学习,确定噪音、离子谱峰等不同类别的谱峰在上述特征上的表现,确定区分各类别谱峰的特征值的阈值,确定分类的规则;5)根据所学习到的规则对所有的质谱中的谱峰进行处理,挑选出离子的单同位素峰。本发明通过定义同位素模式概念并采用准确的公式计算离子的同位素模式的值来判断谱峰是否为有效峰,准确率更高,采用本方法极大地提高鉴定软件的搜索速度以及鉴定的可靠性。

Patent Agency Ranking