-
公开(公告)号:CN119541645B
公开(公告)日:2025-05-16
申请号:CN202510101408.6
申请日:2025-01-22
Applicant: 吉林大学
IPC: G16B30/10 , G16B40/00 , G16B50/00 , G06F18/214 , G06F18/243 , G06N20/20
Abstract: 本发明公开了一种宏基因组质粒识别方法、系统、终端及存储介质,涉及生物信息学DNA数据挖掘领域,所述方法包括:获取目标基因组重叠群,根据基因预测工具进行编码,得到输入特征向量,基于比对工具和预先构建的比对库,进行比对,得到基因组特征;将所述输入特征向量输入到改进的Transformer模型中,输出第一分类分数;将所述基因组特征输入到随机森林模型中,得到第二分类分数;根据基于注意力机制的分类模型,分别对所述第一分类分数和所述第二分类分数进行聚合,得到第一矩阵和第二矩阵,根据所述第一矩阵和所述第二矩阵,得到质粒识别分数。本发明通过两种模型的识别,并将对应的结果进行融合,从而可以准确识别质粒。
-
公开(公告)号:CN119541641A
公开(公告)日:2025-02-28
申请号:CN202510104635.4
申请日:2025-01-23
Applicant: 吉林大学
IPC: G16B30/00 , G16B40/20 , G16B40/30 , G06F18/241 , G06F18/25 , G06N3/0455 , G06N3/0442 , G06N3/084 , G06N3/0985 , G06N3/088 , G06N3/0895 , G06N3/09
Abstract: 本发明公开了一种短抗菌肽序列的识别方法、系统、终端及存储介质。涉及生物信息学技术领域。通过预先获取短抗菌肽数据集,根据短抗菌肽数据集划分得到的训练集,根据训练集对预训练后的蛋白质语言模型进行微调;通过微调后的蛋白质语言模型,获取待分类序列的序列特征;通过基于伪氨基酸成分的分析方法,获取待分类序列的理化特征;将序列特征和理化特征输入注意力模型进行特征融合,得到待分类序列的融合特征;将融合特征输入分类器,得到待分类序列的预测类别。本发明通过建立一个更完善的短抗菌肽数据集对预训练模型进行微调,并将待分类序列的序列特征和理化特征相融合,通过融合特征进行序列分类,可以有效地提高短抗菌肽的识别精确率。
-
公开(公告)号:CN119541645A
公开(公告)日:2025-02-28
申请号:CN202510101408.6
申请日:2025-01-22
Applicant: 吉林大学
IPC: G16B30/10 , G16B40/00 , G16B50/00 , G06F18/214 , G06F18/243 , G06N20/20
Abstract: 本发明公开了一种宏基因组质粒识别方法、系统、终端及存储介质,涉及生物信息学DNA数据挖掘领域,所述方法包括:获取目标基因组重叠群,根据基因预测工具进行编码,得到输入特征向量,基于比对工具和预先构建的比对库,进行比对,得到基因组特征;将所述输入特征向量输入到改进的Transformer模型中,输出第一分类分数;将所述基因组特征输入到随机森林模型中,得到第二分类分数;根据基于注意力机制的分类模型,分别对所述第一分类分数和所述第二分类分数进行聚合,得到第一矩阵和第二矩阵,根据所述第一矩阵和所述第二矩阵,得到质粒识别分数。本发明通过两种模型的识别,并将对应的结果进行融合,从而可以准确识别质粒。
-
公开(公告)号:CN119513634A
公开(公告)日:2025-02-25
申请号:CN202510100996.1
申请日:2025-01-22
Applicant: 吉林大学
IPC: G06F18/232 , G16B20/30 , G06F18/25 , G06F18/214
Abstract: 本发明公开了融合语义特征的单宏基因组重叠群序列聚类方法及系统,所述方法包括:对宏基因组原始数据进行预处理,得到DNA重叠群序列,从重叠群中提取出4‑mer特征,对4‑mer特征进行降维,得到DNA重叠群序列的组成特征;从DNA重叠群序列中选取出训练序列,使用训练序列对DNABERT_S模型进一步预训练后进行语义特征提取,得到语义特征;将组成特征和语义特征输入到预先构建的VAE变分自编码器中进行特征融合重构,并计算重构误差;当重构误差稳定或达到预定的训练轮次时,获取VAE变分自编码器的潜在空间特征,根据潜在空间特征,通过k均值聚类算法完成对DNA重叠群序列的聚类。本发明解决了在缺乏覆盖率特征时聚类精度较低的问题,提高了单样本宏基因组的聚类效果。
-
-
-