-
公开(公告)号:CN119513634A
公开(公告)日:2025-02-25
申请号:CN202510100996.1
申请日:2025-01-22
Applicant: 吉林大学
IPC: G06F18/232 , G16B20/30 , G06F18/25 , G06F18/214
Abstract: 本发明公开了融合语义特征的单宏基因组重叠群序列聚类方法及系统,所述方法包括:对宏基因组原始数据进行预处理,得到DNA重叠群序列,从重叠群中提取出4‑mer特征,对4‑mer特征进行降维,得到DNA重叠群序列的组成特征;从DNA重叠群序列中选取出训练序列,使用训练序列对DNABERT_S模型进一步预训练后进行语义特征提取,得到语义特征;将组成特征和语义特征输入到预先构建的VAE变分自编码器中进行特征融合重构,并计算重构误差;当重构误差稳定或达到预定的训练轮次时,获取VAE变分自编码器的潜在空间特征,根据潜在空间特征,通过k均值聚类算法完成对DNA重叠群序列的聚类。本发明解决了在缺乏覆盖率特征时聚类精度较低的问题,提高了单样本宏基因组的聚类效果。
-
公开(公告)号:CN117995283B
公开(公告)日:2024-07-23
申请号:CN202410397036.1
申请日:2024-04-03
Applicant: 吉林大学
Abstract: 本发明公开了一种单样本宏基因组聚类方法、系统、终端及存储介质,所述方法包括:根据待处理的原始鸟枪数据集和原始高通数据集得到鸟枪数据集和高通数据集;根据鸟枪数据集得到重叠群文件,并根据重叠群文件和高通数据集得到映射数据文件;根据重叠群文件构建组装图,根据重叠群文件和映射数据文件构建高通图,根据重叠群文件进行特征提取处理,得到节点第一视图和节点第二视图;将组装图、高通图、节点第一视图和节点第二视图输入深度聚类模型,深度聚类模型根据组装图、高通图、节点第一视图和节点第二视图进行聚类操作,得到最终的聚类标签结果。本发明提高对单样本宏基因DNA重叠群的聚类性能,使得聚类结果更加准确。
-
公开(公告)号:CN117995283A
公开(公告)日:2024-05-07
申请号:CN202410397036.1
申请日:2024-04-03
Applicant: 吉林大学
Abstract: 本发明公开了一种单样本宏基因组聚类方法、系统、终端及存储介质,所述方法包括:根据待处理的原始鸟枪数据集和原始高通数据集得到鸟枪数据集和高通数据集;根据鸟枪数据集得到重叠群文件,并根据重叠群文件和高通数据集得到映射数据文件;根据重叠群文件构建组装图,根据重叠群文件和映射数据文件构建高通图,根据重叠群文件进行特征提取处理,得到节点第一视图和节点第二视图;将组装图、高通图、节点第一视图和节点第二视图输入深度聚类模型,深度聚类模型根据组装图、高通图、节点第一视图和节点第二视图进行聚类操作,得到最终的聚类标签结果。本发明提高对单样本宏基因DNA重叠群的聚类性能,使得聚类结果更加准确。
-
-