-
公开(公告)号:CN120048360A
公开(公告)日:2025-05-27
申请号:CN202510107352.5
申请日:2025-01-23
Applicant: 电子科技大学长三角研究院(湖州)
IPC: G16B40/20 , G16B20/00 , G06F18/243 , G06F18/214 , G06N3/0464 , G06N3/0499 , G06N3/084
Abstract: 本发明属于计算机技术领域,公开了一种基于人工智能技术识别液‑液相分离调节蛋白的方法,本发明采用了一种基于人工智能的方法来识别LLPS中的调节蛋白。首先构建了一个包含913个阳性蛋白质序列和6584个阴性蛋白质序列的可靠数据集。为了应对类不平衡的问题,将阴性数据集随机划分为多个子集,每个子集的大小与阳性数据集数目相匹配,最终获得了8个平衡的训练集和一个独立测试集。接着,利用蛋白质预训练语言模型ESM2‑36从这些蛋白质序列中提取特征信息。以此为基础,训练了一个基于多层感知器(MLP)的集成分类器,采用10倍交叉验证来优化模型。最终,该分类器在测试数据集上达到了77.78%的准确率。
-
公开(公告)号:CN117688431A
公开(公告)日:2024-03-12
申请号:CN202410013841.X
申请日:2024-01-02
Applicant: 电子科技大学长三角研究院(湖州)
Abstract: 本申请提供一种LLPS蛋白质识别方法、装置、设备及存储介质,涉及计算机技术领域,该方法包括:获取初始样本集;初始样本集包括多个液‑液相分离LLPS蛋白质序列;从每个LLPS蛋白质序列中提取预设种类的特征向量;获取每个LLPS蛋白质序列各自对应的依赖类型;根据预设种类的特征向量,得到多个训练样本;将每个LLPS蛋白质序列各自对应的依赖类型作为多个训练样本的标签,得到训练样本集;基于训练样本集对预设的初始模型进行训练,得到LLPS蛋白质识别模型。该方法适用于识别LLPS蛋白质依赖类型的过程中,用于解决传统方法耗时和昂贵的问题。
-