蛋白预测模型训练方法、识别方法及可读存储介质

    公开(公告)号:CN115206435A

    公开(公告)日:2022-10-18

    申请号:CN202210900280.6

    申请日:2022-07-28

    Inventor: 邹权 丁漪杰

    Abstract: 本发明公开了一种蛋白预测模型训练方法,以解决现存蛋白质序列的分类识别精度不够的技术问题。该模型包括:获取目标蛋白序列的样本集;根据理化性质对所述样本集进行序列特征提取,得到序列特征集;根据Smote方法对所述序列特征集分别进行平衡,得到平衡特征集;将所述平衡特征集导入分类机GHKNN(Graph regularized k‑local hyperplane distance nearest neighbormodel)进行训练,得到目标蛋白预测模型。该模型提高了蛋白预测模型识别精度。

    基于集成学习的嗜热蛋白的识别方法、存储介质及设备

    公开(公告)号:CN113971985A

    公开(公告)日:2022-01-25

    申请号:CN202111517151.0

    申请日:2021-12-13

    Inventor: 邹权 李静 丁漪杰

    Abstract: 基于集成学习的嗜热蛋白的识别方法、存储介质及设备,属于蛋白质识别技术和计算机技术交叉领域。为了解决目前的嗜热蛋白的识别方法的识别精度还有待于提高的问题。本发明首先获取待处理的嗜热蛋白数据,并提取嗜热蛋白数据集的数据特征,利用嗜热蛋白的分类模型进行识别;在嗜热蛋白的分类模型的构建过程中,采用M种特征提取方法提取嗜热蛋白数据集的数据特征,采用MRMD算法分别对每个特征文件中的特征进行特征选择,得到特征与实例类别具有相关性的特征子集;引入个机器学习算法与选择后的特征子集进行结合以生成基分类器;然后对基分类器进行筛选并进行集成,通过投票法生成最终的分类结果,进而确定分类模型。主要用于嗜热蛋白的识别。

    一种III型分泌系统效应蛋白识别方法及装置

    公开(公告)号:CN113838520A

    公开(公告)日:2021-12-24

    申请号:CN202111136236.4

    申请日:2021-09-27

    Abstract: 本发明提供一种III型分泌系统效应蛋白识别方法及装置,方法为导入III型分泌系统效应蛋白序列数据文件,获取原始III型分泌系统效应蛋白数据集;从原始III型分泌系统效应蛋白数据集中提取数据特征,根据数据特征构建特征矩阵;对特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;构建特征相似度评分矩阵;通过特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;根据集成策略将第一III型分泌系统效应蛋白基分类器和第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型;本发明提出了一种全新的III型分泌系统效应蛋白识别方法,生成了综合性能更优,得到应用更加广泛的III型分泌系统效应蛋白模型。

    一种sgRNA的靶标活性预测方法、装置、设备和存储介质

    公开(公告)号:CN113409889A

    公开(公告)日:2021-09-17

    申请号:CN202110569021.5

    申请日:2021-05-25

    Inventor: 邹权 牛梦婷

    Abstract: 本申请提供了一种sgRNA的靶标活性预测方法、装置、设备和存储介质。方法包括:获取sgRNA序列数据集;对所述sgRNA序列数据集进行序列特征提取,得到多个特征信息;将所述多个特征信息进行融合,得到特征集;基于所述特征集对种子模型进行训练,得到活性预测模型;获取待预测sgRNA序列;基于所述活性预测模型,预测所述待预测sgRNA序列的靶标活性。能够确定sgRNA的靶标活性。

Patent Agency Ranking