-
公开(公告)号:CN106529212B
公开(公告)日:2019-01-25
申请号:CN201610911060.8
申请日:2016-10-19
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G16B30/00
Abstract: 本发明提供了种基于序列依赖频率矩阵的生物序列进化信息提取方法,其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;然后统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到如式(1)所示的序列依赖频率矩阵SDFM。本发明的技术方案考虑到了生物序列中相邻位点的依赖关系,能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征,使得统计的概率分布信息包含了序列位点依赖关系信息。
-
公开(公告)号:CN104636636B
公开(公告)日:2018-01-05
申请号:CN201510057034.9
申请日:2015-02-02
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明涉及蛋白质远程同源性检测方法及装置,包括训练过程和检测过程;训练过程包括将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序,并在数据库中进行检索,每一个检索结果对应一个同源相似性评分,将所有检索结果降序排序,并组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练,得到排序模型;检测过程包括将目标蛋白质按照类似训练过程的方式得到特征向量,输入训练好的排序模型进行排序,得到排序结果,根据排序结果确定目标蛋白质的远程同源性检测结果。本发明通过组合多个基排序的检测结果作为特征向量,然后采用排序学习方法进行训练得到排序模型,从而可以有效提高检测的准确性和稳定性。
-
公开(公告)号:CN106529212A
公开(公告)日:2017-03-22
申请号:CN201610911060.8
申请日:2016-10-19
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F19/22
Abstract: 本发明提供了一种基于序列依赖频率矩阵的生物序列进化信息提取方法,其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;然后统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到如式(1)所示的序列依赖频率矩阵SDFM。本发明的技术方案考虑到了生物序列中相邻位点的依赖关系,能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征,使得统计的概率分布信息包含了序列位点依赖关系信息。
-
公开(公告)号:CN104636636A
公开(公告)日:2015-05-20
申请号:CN201510057034.9
申请日:2015-02-02
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明涉及蛋白质远程同源性检测方法及装置,包括训练过程和检测过程;训练过程包括将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序,并在数据库中进行检索,每一个检索结果对应一个同源相似性评分,将所有检索结果降序排序,并组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练,得到排序模型;检测过程包括将目标蛋白质按照类似训练过程的方式得到特征向量,输入训练好的排序模型进行排序,得到排序结果,根据排序结果确定目标蛋白质的远程同源性检测结果。本发明通过组合多个基排序的检测结果作为特征向量,然后采用排序学习方法进行训练得到排序模型,从而可以有效提高检测的准确性和稳定性。
-
-
-