-
公开(公告)号:CN117238372A
公开(公告)日:2023-12-15
申请号:CN202311013281.X
申请日:2023-08-11
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本发明属于单细胞RNA测序技术领域,具体涉及一种基于鲁棒非负矩阵分解的单细胞RNA测序数据插补方法。该基于鲁棒非负矩阵分解的单细胞RNA测序数据插补方法,利用基于鲁棒非负矩阵分解的scRNA‑seq数据插补方法的目标函数分别获取细胞特征矩阵W和基因特征矩阵H的最优参数,再利用scRNMF模型预测插补后的细胞基因表达数据 所述目标函数包括C‑loss损失函数和最小平方损失函数两项损失函数。基于鲁棒和非负矩阵分解的scRNA‑seq数据插补方法以下简称为scRNMF。本发明提供的方法通过训练求解目标函数,利用求解结果确定scRNMF模型,使用确定的scRNMF模型进行结果预测。
-
公开(公告)号:CN115206433A
公开(公告)日:2022-10-18
申请号:CN202210900276.X
申请日:2022-07-28
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本发明公开了一种增强子预测模型训练方法,包括:获取增强子序列的样本集;根据特征提取算法对所述样本集进行序列特征提取,得到序列特征集;对所述序列特征集进行融合与优化,得到优化特征集;将所述优化特征集导入分类机进行训练,得到增强子预测模型。解决现存无法针对性的预测增强子,和训练模型的精确度不高的的技术问题,通过这种方式,能够充分特征提取的优势,避免维度灾难与模型的过拟合的问题,导入分类机进行训练后,提高了模型的鲁棒性,而且显著提高了对增强子及其强度识别的准确性。
-
公开(公告)号:CN120048353A
公开(公告)日:2025-05-27
申请号:CN202510519006.8
申请日:2025-04-24
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G16B30/00 , G16B40/00 , G16B45/00 , G06F18/2113 , G06F18/213 , G06N3/045 , G06N3/0464 , G06N3/0499 , G06N3/084 , G06N3/0985
Abstract: 本发明提供了一种基于深度学习的i‑motifs的折叠状态预测方法,它解决了现有机器学习方法难以捕捉复杂特征交互关系和发现隐藏规律等问题,其包括如下步骤:S1:数据获取与预处理;S2:i‑motif候选序列筛选;S3:序列编码与特征提取;S4:DeepIM模型构建与训练;S5:模型评估;S6:结果可视化与对比。本发明具有预测效果好、可解释性好等优点。
-
公开(公告)号:CN118866122B
公开(公告)日:2025-03-04
申请号:CN202411366869.8
申请日:2024-09-29
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本申请实施例提供了通过单细胞Hi‑C生成不同分辨率插补结果的方法和系统,属于人工智能和生物信息学的技术领域。本发明获取若干个单细胞Hi‑C数据文件;对所述单细胞Hi‑C数据文件进行预处理,得到接触矩阵;对所述接触矩阵进行插补,得到插补接触矩阵;将所述插补接触矩阵进行求和操作,得到更新接触矩阵;根据所述更新接触矩阵,得到低分辨率插补信息。本发明解决了需要对原始的单细胞Hi‑C数据在不同分辨率下进行多次插补的问题,提高了对单细胞Hi‑C数据的插补效率,为下游分析提供了更为灵活的选择,在基因组学和转录组学等领域中具有广泛的应用前景,为探索基因组结构与功能的关系提供了强有力的工具。
-
公开(公告)号:CN119360952A
公开(公告)日:2025-01-24
申请号:CN202411921316.4
申请日:2024-12-25
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G16B15/30 , G16B40/00 , G06N3/0455 , G06N3/042
Abstract: 本发明公开了一种基于图Transformer的蛋白质‑配体对接打分模型的构建方法,包括图神经网络、基于注意力机制的多层网络和解码模块,解码模块包括MND解码模块和pKd解码模块;MND解码模块用于计算蛋白质和配体之间距离概率分布;pKd解码模块用于预测蛋白质和配体结合时的亲和力值;损失函数包括MDN损失和pKd损失,多层网络的第一层具有随着训练迭代更新的用于指示特征被保留或屏蔽的掩码向量,以蛋白质图和配体图为输入进行对接打分预测。本方案模型同时使用了MDN和pKd两个解码模块,MDN从概率分布的角度优化模型参数,而pKd模块则从结合亲和力的角度来优化模型参数,两者分别从空间关系和相互作用关系来进行对接打分,通过两者的配合可有效提升模型的综合评价能力。
-
公开(公告)号:CN119207565A
公开(公告)日:2024-12-27
申请号:CN202411103532.8
申请日:2024-08-13
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本发明涉及一种基于环挤压模型中转录因子序列预测CTCF染色质环的方法。它解决了现有技术中染色质环预测方法可解释性有限且预测不准确的问题。它包括S1、构建数据集;S2、关键转录因子序列转化;S3、建立基于关键转录因子序列的CTCF染色质环分类模型;S4、模型评估。本发明的优点在于:仅用关键转录因子序列作为输入,能够实现对CTCF染色质环的预测。创新地将转录因子结合顺序编码为转录因子序列,利用自然语言的预训练BERT模型,解码转录因子序列,实现对CTCF染色质环的预测,提高预测准确率的同时,增强预测模型的可解释性。
-
公开(公告)号:CN117953973A
公开(公告)日:2024-04-30
申请号:CN202410326309.3
申请日:2024-03-21
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本发明提供了一种基于序列同源性的特定生物序列预测方法及其系统,包括,准备特定生物序列相关的原始序列数据集;原始序列数据集包括训练集和测试集,训练集用于训练模型,测试集则用于对训练的模型进行测试;构造基于序列同源性评分的模糊隶属函数,用于将序列数据转化成特征向量;构造深度模糊回声状态网络,用于根据特征向量输出预测结果;使用原始序列数据集训练深度模糊回声状态网络。本方案提出基于序列同源性评分的模糊隶属函数将序列数据转化成特征向量,无需手动提取特征,并且可直接处理字符串序列,无需进行特征编码,通过整合序列进化信息有效优化特征空间,不仅减少了模型的训练时间,同时提高了模型的分类性能。
-
公开(公告)号:CN117603293A
公开(公告)日:2024-02-27
申请号:CN202311426083.6
申请日:2023-10-31
Applicant: 电子科技大学长三角研究院(衢州)
IPC: C07J71/00 , C07D493/10 , A61K31/58 , A61K31/357 , A61P31/20
Abstract: 本发明属于设计药学和猴痘病毒感染药物领域,公开了一种通过虚拟筛选方法得到的具有抗VP37蛋白酶活性化合物及其应用,通过先进的分子技术确保了结构的准确性与特异性;所描述的化合物具有特异的IUPAC命名和结构,在生物或医药领域有特定的活性和应用;提供了新的化合物结构作为的药物或研究工具的候选物,拓展了现有的化合物库。该发明通过采用分子对接和分子动力学模拟的方法对多个蛋白小分子体系进行拟合,根据打分函数,结合能计算和RMSD数值等多个维度与参照化合物对比分析出化合物具有抗猴痘病毒的活性,该种化合物能成为治疗猴痘病毒的药物。
-
公开(公告)号:CN117437983A
公开(公告)日:2024-01-23
申请号:CN202311471325.3
申请日:2023-11-07
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G16B40/00 , G16B30/10 , G16B20/30 , G06F18/213 , G06F18/2415
Abstract: 本发明提供一种GPCR蛋白序列的识别方法及计算机可读存储介质,包括:获取待识别的GPCR蛋白序列,使用PsePSSM提取方法提取蛋白序列的GPCR特征;将所述GPCR特征输入预先训练完成的MLapRVFL分类模型中,得到所述MLapRVFL分类模型输出的识别结果,其中,所述MLapRVFL分类模型是通过将多拉普拉斯和L2,1‑norm正则化项引入基本的随机向量功能链接RVFL方法中进行训练得到的,且所述MLapRVFL分类模型根据Spec、ACC、SN、MCC、AUC至少五个衡量指标衡量MLapRVFL分类模型的准确度,根据实验结果显示,PsePSSM特征提取方法相对于其他特征提取方法在MLapRVFL分类模型上的ACC、AUC衡量指标上能获得了更好的分类效果,本发明相比现有的机器学习方法在GPCR数据集上也有更好的分类性能,且提高了GPCR蛋白质序列的预测准确性。
-
公开(公告)号:CN116343915B
公开(公告)日:2023-11-24
申请号:CN202310249336.0
申请日:2023-03-15
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G16B20/20 , G06F18/241 , G06F18/25 , G06F18/214 , G16B50/00
Abstract: 本方案公开了一种生物序列集成分类器的构建方法及生物序列预测分类方法,首先通过多序列比对技术构建序列核,通过表征生物序列之间的距离构建结构核,通过本体论的的标注,在树形结构上估算生物序列之间的距离来构建功能核;然后使用不同的多核学习方法求解核权重,使用多核融合技术融合序列核、功能核和结构核,基于序列核、结构核、功能核构建及训练相应的基分类器并集成为生物序列集成分类器,完成对生物序列的分类,针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出“序列核”、“结构核”和功能核”,直接处理生物序列样本,避免了数值特征提取时造成的信息丢失与信息冗余。
-
-
-
-
-
-
-
-
-