-
公开(公告)号:CN104215729B
公开(公告)日:2016-09-28
申请号:CN201410406562.6
申请日:2014-08-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种串联质谱母离子检测模型训练方法,包括下列步骤:1)获取母离子已知的谱图数据集,对于其中每张二级谱图,确定该二级谱图的候选母离子;2)提取每个二级谱图‑候选母离子组合的特征向量,并根据二级谱图和候选母离子配对正确与否进行相应的赋值;其中,特征向量的元素包括:同位素峰簇相似度、碎裂窗口内的谱峰强度比、色谱相似度和虚拟色谱相似度;3)将所有二级谱图‑候选母离子组合的特征向量作为输入,将二级谱图和候选母离子配对正确与否的赋值作为输出,训练MARS模型,得到串联质谱母离子检测模型。本发明还提供了相应的母离子检测方法。本发明能够提高母离子召回率并提高母离子的检测速度。
-
公开(公告)号:CN110349621B
公开(公告)日:2021-08-27
申请号:CN201910482412.6
申请日:2019-06-04
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种肽段‑谱图匹配可信度检验方法、系统、存储介质及装置,包括:将待检测结果中图谱数据输入至开放式搜索引擎,得到待检测结果的鉴定结果;获取限定式搜索引擎对待检测结果的打分,得到第一分值,同时提取第一分值排前n名候选肽段;获取开放式搜索引擎对鉴定结果的打分,得到第二分值,同时提取第二分值排前n名候选肽段;预测每个候选肽段的理论谱图,计算每张理论谱图与待检测结果中图谱数据的余弦相似度,并统计余弦相似度中的最高值;提取由待检测结果的第一分值、第二分值、余弦相似度和最高余弦相似度值组成的四维特征;将四维特征输入至使用SVM训练的离线模型,得到待检测结果的可信度检验结果。
-
公开(公告)号:CN107729719B
公开(公告)日:2020-05-26
申请号:CN201710913734.2
申请日:2017-09-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提一种从头测序方法,该方法包括:在通过酶切产生的两个数据集中查找镜像肽段对应的镜像谱图;从所述镜像谱图中检测高可信谱峰和普通谱峰;根据所述高可信谱峰和普通谱峰构建有向无环图,其中,所述高可信谱峰对应的结点是高可信结点,普通谱峰对应的结点是普通结点;基于所构建的有向无环图生成候选肽段。本发明的方法利用镜像谱图相互佐证,能够提高肽段从头测序的准确率。
-
公开(公告)号:CN107622184B
公开(公告)日:2020-01-21
申请号:CN201710904787.8
申请日:2017-09-29
Applicant: 中国科学院计算技术研究所
IPC: G16B40/00
Abstract: 本发明提供了一种氨基酸可信度评估模型训练方法。该方法包括:根据包含待训练氨基酸的训练肽段产生所述待训练氨基酸的背景肽段集合;从所述训练肽段和所述待训练氨基酸提取多个特征;以所提取的多个特征作为输入向量,以所述待训练氨基酸是否正确作为输出,训练分类模型,得到氨基酸可信度评估模型。本发明获得氨基酸可信度评估模型可用于氨基酸可信度评估和修饰位点定位的评估,提高了氨基酸可信度评估的准确率并且改善了修饰位点定位的评估性能。
-
公开(公告)号:CN110349621A
公开(公告)日:2019-10-18
申请号:CN201910482412.6
申请日:2019-06-04
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种肽段-谱图匹配可信度检验方法、系统、存储介质及装置,包括:将待检测结果中图谱数据输入至开放式搜索引擎,得到待检测结果的鉴定结果;获取限定式搜索引擎对待检测结果的打分,得到第一分值,同时提取第一分值排前n名候选肽段;获取开放式搜索引擎对鉴定结果的打分,得到第二分值,同时提取第二分值排前n名候选肽段;预测每个候选肽段的理论谱图,计算每张理论谱图与待检测结果中图谱数据的余弦相似度,并统计余弦相似度中的最高值;提取由待检测结果的第一分值、第二分值、余弦相似度和最高余弦相似度值组成的四维特征;将四维特征输入至使用SVM训练的离线模型,得到待检测结果的可信度检验结果。
-
公开(公告)号:CN106770605B
公开(公告)日:2019-03-26
申请号:CN201611019740.5
申请日:2016-11-14
Applicant: 中国科学院计算技术研究所
IPC: G01N27/62
Abstract: 本发明提供了从头测序方法,其包括将待解析的谱图转化为质谱连接图,统计所述质谱连接图中各条路径的得分,提取路径得分高的前若干条普通路径和修饰路径作为候选肽段,其中,所述普通路径为仅由普通边组的路径,所述修改路径为由普通边和修饰边组成的路径且其中仅包含一条修饰边;以及对于每个候选肽段进行肽谱匹配打分,取肽谱匹配打分最高的候选肽段作为所述谱图对应的肽段。该方法可以支持上千种意外修饰的发现,而且不会对肽段鉴定的速度有较大影响。另外,还可以更细粒度地区分相似肽段序列,改善了肽段鉴定的准确率。
-
公开(公告)号:CN108052801A
公开(公告)日:2018-05-18
申请号:CN201711235673.5
申请日:2017-11-30
Applicant: 中国科学院计算技术研究所
IPC: G06F19/28
Abstract: 本发明涉及一种基于正则表达式的N糖结构库构建方法与系统,包括:将五糖核心中每个单糖作为一个节点,为各节点进行编号以明确节点所代表的单糖类别,根据各节点间的连接关系和编号,计算五糖核心中每个节点的正则表达式,并将所有正则表达式集合,作为x糖结构字符串码,其中x为糖结构所具有的节点数;以正则表达式为基础,通过枚举法生成节点数目为x+1的糖结构的字符串码,作为x+1糖结构字符串码;根据x+1糖结构字符串码,对生成的节点数目为x+1的各个糖结构去冗余并判断其结构的合理性,将合理且没有冗余的x+1糖结构输出到文本文件中,并将文本文件作为N糖结构库。本发明节省了枚举糖库过程中的空间开销,还有效地提高了糖结构的枚举速度。
-
公开(公告)号:CN104182658A
公开(公告)日:2014-12-03
申请号:CN201410382707.3
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种串联质谱谱图鉴定方法,其特征在于,包括下列步骤:1)对于待鉴定谱图数据集中的每张谱图,分别在全局序列库中进行限制性搜索,获得各谱图的匹配肽段;2)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,获得与一部分谱图相匹配的带修饰的肽段,并获得所带修饰的质量和误差区间;3)对于待鉴定谱图数据集中的每张谱图,根据步骤2)所匹配的修饰的质量和误差区间以及当前待鉴定谱图的质量,设定限制性搜索区间,并在全局序列库中进行搜索,获得最终的匹配结果。本发明能够提高串联质谱谱图鉴定的鉴定率和准确度,并且具有较高的搜索速度。
-
-
-
-
-
-
-