-
公开(公告)号:CN111599412B
公开(公告)日:2024-03-29
申请号:CN202010335096.2
申请日:2020-04-24
Applicant: 山东大学
IPC: G16B30/10 , G06N3/0464 , G06N3/08
Abstract: 本申请提供的基于词向量与卷积神经网络的DNA复制起始区域识别方法中,首先通过连续三分序列分词将DNA序列进行分词,得到各个三联核苷酸,然后将分词后的三联核苷酸负采样后通过Word2vec迭代训将三联核苷酸进行向量化得到词向量,所有的词向量合并后得到预训练特征向量矩阵,预训练特征向量矩阵中包括各个三联核苷酸的预训练特征向量,将分词后的各三联核苷酸竖向排列后嵌入各个三联核苷酸的预训练特征向量得到词嵌入层,词嵌入层将三联核苷酸序列特征向量化,然后经过卷积、池化训练得到卷积神经网络,通过加入词嵌入层的卷积神经网络进行ORI特征的深度挖掘和分类识别,最终识别出ORI;本申请的识别准确度大大提高。
-
公开(公告)号:CN110890127B
公开(公告)日:2024-02-23
申请号:CN201911184159.2
申请日:2019-11-27
Applicant: 山东大学
IPC: G16B20/00 , G06N3/0464
Abstract: 本申请提供了一种酿酒酵母DNA复制起始区域识别方法,包括:从酿酒酵母基因序列数据库中选取DNA样本;利用大小为3的滑动窗口以等距步长在DNA样本上进行滑动,得到核苷酸三联体集合;计算每个核苷酸三联体在核苷酸三联体集合中的频率;根据频率和核苷酸三联体的理化性质构建DNA样本的特征向量;将特征向量分别输入多个不同卷积层数的卷积神经网络,根据卷积神经网络的识别效果选择目标卷积层数;将设置有目标卷积层数的卷积神经网络进行超参数迭代,得到具有最优超参数的目标卷积神经网络;将待测酿酒酵母基因序列输入目标卷积神经网络,得到DNA复制起始区域。本申请提高了酿酒酵母DNA复制起始区域识别精度。
-
公开(公告)号:CN110890127A
公开(公告)日:2020-03-17
申请号:CN201911184159.2
申请日:2019-11-27
Applicant: 山东大学
Abstract: 本申请提供了一种酿酒酵母DNA复制起始区域识别方法,包括:从酿酒酵母基因序列数据库中选取DNA样本;利用大小为3的滑动窗口以等距步长在DNA样本上进行滑动,得到核苷酸三联体集合;计算每个核苷酸三联体在核苷酸三联体集合中的频率;根据频率和核苷酸三联体的理化性质构建DNA样本的特征向量;将特征向量分别输入多个不同卷积层数的卷积神经网络,根据卷积神经网络的识别效果选择目标卷积层数;将设置有目标卷积层数的卷积神经网络进行超参数迭代,得到具有最优超参数的目标卷积神经网络;将待测酿酒酵母基因序列输入目标卷积神经网络,得到DNA复制起始区域。本申请提高了酿酒酵母DNA复制起始区域识别精度。
-
公开(公告)号:CN110033089A
公开(公告)日:2019-07-19
申请号:CN201910309944.X
申请日:2019-04-17
Applicant: 山东大学
IPC: G06N3/08
Abstract: 本发明公开了一种基于分布式估计算法的深度神经网络参数优化方法及系统,包括:初始化种群,将种群中每一个个体解码为深度神经网络;对上述深度神经网络的分类能力进行评价;对种群中的个体优劣进行排序;随机产生掩码向量,根据掩码向量及统计学参数确定待求解变量本次迭代的概率分布模型;依据掩码向量与概率分布模型采样,生成新的种群个体;获得最优分布式估计算法个体;利用梯度优化算法,对分布式估计算法获得的深度神经网络模型进行微调,获得最优深度神经网络参数。本发明将分布式估计算法和深度神经网络的优化相结合,利用分布式估计算法的全局搜索能力,减少神经网络优化过程中对梯度信息的依赖。
-
公开(公告)号:CN104331642B
公开(公告)日:2017-04-12
申请号:CN201410588610.8
申请日:2014-10-28
Applicant: 山东大学
Abstract: 本发明公开了用于识别细胞外基质蛋白的集成学习方法,数据集建立:建立细胞外基质ECM蛋白序列的训练样本集和独立测试样本集;将训练样本集中的蛋白质序列映射成数值特征向量;采用信息增益率—增量特征选择方法挑选出相对有效的特征子集,采用集成学习的方法建立集成分类器模型,以解决数据集不平衡的问题;将独立测试样本集映射成数值特征向量,基于集成分类器模型的预测结果,采用多数表决方法得到测试样本的类别,最终利用所有测试样本的预测结果评价预测系统的性能;本发明开发了用于细胞外基质蛋白识别的网络服务器系统。用户无需理解细胞外基质蛋白识别的具体执行过程,只需输入待预测的蛋白质序列,即可得到预测结果。
-
公开(公告)号:CN110488020B
公开(公告)日:2022-12-13
申请号:CN201910734943.X
申请日:2019-08-09
Applicant: 山东大学
Abstract: 本申请提供了一种蛋白质糖化位点鉴定方法,包括:收集蛋白质糖化位点数据,从所述蛋白质糖化位点数据中提取肽链获得肽链样本集,所述肽链以赖氨酸为中心;分别采用单热向量编码所述肽链的每个氨基酸,获得使用单热向量表示的肽链训练集;利用LSTM RNNs训练生产人工肽链样本,构建人工肽链样本集;将所述肽链样本集和人工肽链样本集中各肽链分割成一系列的生物学词,基于所述生物学词分别通过ProtVec构造所述肽链样本集和人工肽链样本集中各肽链的特征;基于CNN训练获得预测器、鉴定蛋白质糖化位点。本申请提供的种蛋白质糖化位点鉴定方法,用于鉴定蛋白质糖化位点,降低特征提取的繁复度,提高蛋白质糖化位点鉴定的准确度。
-
公开(公告)号:CN113314227A
公开(公告)日:2021-08-27
申请号:CN202110422976.8
申请日:2021-04-16
Applicant: 山东大学
Abstract: 本申请实施例提供的预测新型冠状病毒感染的机器学习模型构建方法包括:获取包含症状、逆转录聚合酶链反应和新型冠状病毒肺炎抗体的检测结果的医务人员的数据,将数据整合成的数据集分为训练数据集和测试数据集,对训练数据集进行特征选择后得到第一训练数据集,构建包括第一逻辑回归分类器和第二逻辑回归分类器,且存在监督学习的第一模型,采用欠采样处理后的第一训练数据集中第一训练数据子集训练第一模型中的第一逻辑回归分类器,第二训练数据子集训练第一模型中的第二逻辑回归分类器,根据训练后的第一逻辑回归分类器和第二逻辑回归分类器构建第二模型,对测试数据集进行特征选择,基于得到的测试数据集,验证第二模型的预测准确率。
-
公开(公告)号:CN112884087A
公开(公告)日:2021-06-01
申请号:CN202110375106.X
申请日:2021-04-07
Applicant: 山东大学
IPC: G06K9/62 , G06F40/30 , G06F40/289 , G16B30/00
Abstract: 本申请提供一种生物增强子及其类型的识别方法,解决提升生物增强子及其类型的识别性能的问题。本申请提供的生物增强子的识别方法,包括:根据n‑gram,对基准数据集中的序列进行预分词,得到预分词序列,其中,增强子序列经过预分词得到第一预分词序列,非增强子序列经过预分词得到第二预分词序列;根据Seq‑GAN网络模型,训练第一预分词序列,生成第一人工序列,训练第二预分词序列,生成第二人工序列;第一人工序列和原始正样本数据集融合,得到扩增正样本数据集;第二人工序列和原始负样本数据集融合,得到扩增负样本数据集;基于统计学,对扩增正样本数据集进行序列分词,得到第一分词结果和分词模型。本申请提高了增强子及其类型识别的性能。
-
公开(公告)号:CN117373536A
公开(公告)日:2024-01-09
申请号:CN202311405523.X
申请日:2023-10-26
Applicant: 山东大学
IPC: G16B30/00 , G16B40/00 , G06N3/0464 , G06N3/084 , G06N3/094 , G06N3/045 , G06N3/0475 , G06N3/044 , G16B20/30
Abstract: 本公开属于生物信息技术领域,提供了一种基于自然语言处理的丙二酰化位点预测方法及系统,包括以下步骤:获取基准数据集;对基准数据集进行平衡处理;将基准数据集分割为多个氨基酸单位,采用Word2vec中的Skip‑gram方法将氨基酸序列从原始空间映射到多维空间;将多维空间特征向量输入CNN预测模型中识别氨基酸序列中丙二酰化位点。本公开使用seqGAN网络进行数据集增强,采用词嵌入技术中的word2vec技术将连续分割后的氨基酸序列映射成高维空间的数字向量,解决了深度网络计算成本大的弊端,提升了丙二酰化位点预测的准确率。
-
-
-
-
-
-
-
-