-
公开(公告)号:CN115206435A
公开(公告)日:2022-10-18
申请号:CN202210900280.6
申请日:2022-07-28
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本发明公开了一种蛋白预测模型训练方法,以解决现存蛋白质序列的分类识别精度不够的技术问题。该模型包括:获取目标蛋白序列的样本集;根据理化性质对所述样本集进行序列特征提取,得到序列特征集;根据Smote方法对所述序列特征集分别进行平衡,得到平衡特征集;将所述平衡特征集导入分类机GHKNN(Graph regularized k‑local hyperplane distance nearest neighbormodel)进行训练,得到目标蛋白预测模型。该模型提高了蛋白预测模型识别精度。
-
公开(公告)号:CN113971985A
公开(公告)日:2022-01-25
申请号:CN202111517151.0
申请日:2021-12-13
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 基于集成学习的嗜热蛋白的识别方法、存储介质及设备,属于蛋白质识别技术和计算机技术交叉领域。为了解决目前的嗜热蛋白的识别方法的识别精度还有待于提高的问题。本发明首先获取待处理的嗜热蛋白数据,并提取嗜热蛋白数据集的数据特征,利用嗜热蛋白的分类模型进行识别;在嗜热蛋白的分类模型的构建过程中,采用M种特征提取方法提取嗜热蛋白数据集的数据特征,采用MRMD算法分别对每个特征文件中的特征进行特征选择,得到特征与实例类别具有相关性的特征子集;引入个机器学习算法与选择后的特征子集进行结合以生成基分类器;然后对基分类器进行筛选并进行集成,通过投票法生成最终的分类结果,进而确定分类模型。主要用于嗜热蛋白的识别。
-
公开(公告)号:CN113838520A
公开(公告)日:2021-12-24
申请号:CN202111136236.4
申请日:2021-09-27
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本发明提供一种III型分泌系统效应蛋白识别方法及装置,方法为导入III型分泌系统效应蛋白序列数据文件,获取原始III型分泌系统效应蛋白数据集;从原始III型分泌系统效应蛋白数据集中提取数据特征,根据数据特征构建特征矩阵;对特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;构建特征相似度评分矩阵;通过特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;根据集成策略将第一III型分泌系统效应蛋白基分类器和第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型;本发明提出了一种全新的III型分泌系统效应蛋白识别方法,生成了综合性能更优,得到应用更加广泛的III型分泌系统效应蛋白模型。
-
公开(公告)号:CN113409889A
公开(公告)日:2021-09-17
申请号:CN202110569021.5
申请日:2021-05-25
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本申请提供了一种sgRNA的靶标活性预测方法、装置、设备和存储介质。方法包括:获取sgRNA序列数据集;对所述sgRNA序列数据集进行序列特征提取,得到多个特征信息;将所述多个特征信息进行融合,得到特征集;基于所述特征集对种子模型进行训练,得到活性预测模型;获取待预测sgRNA序列;基于所述活性预测模型,预测所述待预测sgRNA序列的靶标活性。能够确定sgRNA的靶标活性。
-
公开(公告)号:CN116259363A
公开(公告)日:2023-06-13
申请号:CN202310255871.7
申请日:2023-03-16
Applicant: 东北林业大学
Abstract: 一种基于深度学习的植物抗旱基因的识别方法,为了解决现有的植物抗旱基因识别方法耗时长,成本大或过度依赖序列同源性,导致预测结果准确率低的问题。它包括以下步骤:首先获取不同植物的氨基酸序列及其对应的样本标签,样本标签为是否具有抗旱基因;将每条氨基酸序列分为多个长度为2的kmer,根据kmer提取每条氨基酸序列的特征;构建的BiLSTM‑Attention模型依次包括输入层、词嵌入层、特征提取层、注意力层和输出层,将每条氨基酸序列的特征输入BiLSTM‑Attention模型中进行训练,输出所述氨基酸序列是否具有抗旱基因。属于基因识别领域。
-
公开(公告)号:CN118298925A
公开(公告)日:2024-07-05
申请号:CN202410490998.1
申请日:2024-04-23
Applicant: 东北林业大学
IPC: G16B40/00 , G16B10/00 , G16B20/00 , G16B30/00 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/096
Abstract: 基于迁移学习的植物NLR‑无毒蛋白Avr对应关系识别方法,涉及蛋白质互作识别领域。本发明是为了解决由于现有NLR和无毒蛋白对应关系识别方法还存在识别成本高、单位时间内识别效率低导致NLR在抗性育种中应用受限的问题。本发明包括:利用已知对应关系的NLR‑Avr蛋白质序列对构建蛋白质序列对数据集,并将蛋白质序列对数据集划分为训练集和验证集;利用训练集训练Avr‑BAN模型,获得训练好的Avr‑BAN模型,利用验证集对训练好的Avr‑BAN模型验证,获得植物NLR‑待测无毒蛋白预测模型;将待测植物NLR和待测无毒蛋白输入到植物NLR‑待测无毒蛋白预测模型中,获得待测植物NLR和待测无毒蛋白的对应关系概率;本发明用于预测植物NLR和无毒蛋白Avr的对应关系。
-
-
-
-
-