-
公开(公告)号:CN113764045A
公开(公告)日:2021-12-07
申请号:CN202111056316.9
申请日:2021-09-09
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及设备,属于计算机与蛋白质识别结合技术领域。本发明为了解决现有的DNA结合蛋白识别方法存在不能兼顾通用性和识别准确率的问题。本发明利用DNA结合蛋白识别分类器对待识别的DNA结合蛋白进行识别;DNA结合蛋白识别分类器的确定过程中,首先获取处理的DNA结合蛋白特征数据集;采用不同的提取算法提取DNA结合蛋白数据集的数据特征,得到多个特征文件;并将不同特征提取算法提取的序列特征矩阵拼接起来,得到拼接后的特征矩阵;然后对生成的特征矩阵进行规范化处理,使用MRMD算法矩阵进行降维处理;最后使用XGboost算法构建并训练DNA结合蛋白识别分类器模型。主要用于DNA结合蛋白的识别。
-
公开(公告)号:CN113764045B
公开(公告)日:2022-05-06
申请号:CN202111056316.9
申请日:2021-09-09
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及设备,属于计算机与蛋白质识别结合技术领域。本发明为了解决现有的DNA结合蛋白识别方法存在不能兼顾通用性和识别准确率的问题。本发明利用DNA结合蛋白识别分类器对待识别的DNA结合蛋白进行识别;DNA结合蛋白识别分类器的确定过程中,首先获取处理的DNA结合蛋白特征数据集;采用不同的提取算法提取DNA结合蛋白数据集的数据特征,得到多个特征文件;并将不同特征提取算法提取的序列特征矩阵拼接起来,得到拼接后的特征矩阵;然后对生成的特征矩阵进行规范化处理,使用MRMD算法矩阵进行降维处理;最后使用XGboost算法构建并训练DNA结合蛋白识别分类器模型。主要用于DNA结合蛋白的识别。
-