-
公开(公告)号:CN116343915B
公开(公告)日:2023-11-24
申请号:CN202310249336.0
申请日:2023-03-15
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G16B20/20 , G06F18/241 , G06F18/25 , G06F18/214 , G16B50/00
Abstract: 本方案公开了一种生物序列集成分类器的构建方法及生物序列预测分类方法,首先通过多序列比对技术构建序列核,通过表征生物序列之间的距离构建结构核,通过本体论的的标注,在树形结构上估算生物序列之间的距离来构建功能核;然后使用不同的多核学习方法求解核权重,使用多核融合技术融合序列核、功能核和结构核,基于序列核、结构核、功能核构建及训练相应的基分类器并集成为生物序列集成分类器,完成对生物序列的分类,针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出“序列核”、“结构核”和功能核”,直接处理生物序列样本,避免了数值特征提取时造成的信息丢失与信息冗余。
-
公开(公告)号:CN115240771A
公开(公告)日:2022-10-25
申请号:CN202210900274.0
申请日:2022-07-28
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本发明提供了一种目标蛋白预测模型的训练方法,包括:获取目标蛋白序列样本;根据研究视角对目标蛋白序列样本进行序列特征提取,得到序列特征;根据共享隐藏向量的方法,对所述序列特征进行耦合,得到耦合特征;将所述耦合特征导入分类机进行训练,得到目标蛋白预测模型。发明人通过共享隐藏向量的方法,对序列特征进行耦合,再导入分类机进行训练,提高了目标蛋白预测模型的预测的精确程度。
-
公开(公告)号:CN120067895A
公开(公告)日:2025-05-30
申请号:CN202510533729.3
申请日:2025-04-27
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G06F18/243 , G06F18/213 , G06F18/214
Abstract: 本发明涉及一种基于度量学习的系统发生树构建方法。它解决了现有技术中系统发生树构建计算复杂度高且效率低下,准确度不佳的问题。它包括S1、收集包含核酸序列及对应已构建进化树的公开数据集;S2、对收集的数据集进行特征提取;S3、设计并构建度量学习模型,优化数据点之间的相似性度量;S4、使用训练集对度量学习模型进行训练并生成相似性矩阵;S5、基于生成的相似性矩阵,使用系统发生树构建算法构建树形结构并进行结果验证;S6、应用分析。本发明的优点在于:克服了传统方法中距离测量精度低、模型假设局限性强、计算复杂度高等问题,实现了大规模生物数据下系统发生树的高效构建。
-
公开(公告)号:CN119207547A
公开(公告)日:2024-12-27
申请号:CN202411710162.4
申请日:2024-11-27
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本发明公开了一种基于鲁棒多核集成方法的药物靶点交互预测方法及其系统,该方法包括,构建目标函数,包括关于预测交互矩阵的损失函数,集成学习项和正则项;以已知交互矩阵、药物相似核矩阵集合和靶点相似核矩阵集合为训练数据训练模型以优化所述的目标函数;所述药物相似核矩阵集合包含待测药物,靶点相似核矩阵集合包含待测靶点;训练结束后,模型输出包含待测药物与待测靶点交互置信度的预测交互矩阵。本方案模型利用多核学习、多视角信息融合以及集成学习策略,结合鲁棒损失函数,通过训练在药物‑靶点相互作用矩阵进行重建,可通过对未知药物‑靶点相互作用的预测,扩展已有的药物靶标数据库。
-
公开(公告)号:CN118609644A
公开(公告)日:2024-09-06
申请号:CN202411080541.X
申请日:2024-08-08
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G16B20/00 , G16B30/00 , G16B40/00 , G06F18/213 , G06F18/241 , G06F18/2136 , G06N3/045 , G06N3/0442 , G06N3/084
Abstract: 本发明提供了一种基于相关熵核稀疏表示模型的生物序列预测方法及其系统,包括:准备生物序列数据集;将生物序列输入至堆叠双向长短记忆网络,以对生物序列进行特征提取,得到第二特征向量;将第二特征向量输入至神经正切核模型中,生成核矩阵;以核矩阵为输入利用相关熵损失函数训练核稀疏表示分类器以生成最终的分类模型。该方案为解决治疗肽等序列特征提取难的问题以及噪音序列对分类器的影响,使用了堆叠的双向长短记忆网和神经正切核来提取治疗肽序列同时利用相关熵损失函数来训练分类器,可有效减少噪音序列对分类器的影响,提高分类器的泛化能力。
-
公开(公告)号:CN117972448A
公开(公告)日:2024-05-03
申请号:CN202410157765.X
申请日:2024-02-04
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G06F18/22 , G06F18/2131 , G06F18/2137 , G16H50/70 , G16B25/10 , G16B40/00
Abstract: 用于混杂特征肺癌数据分析的多核几何平均度量学习方法及设备,属于肺癌数据分析挖掘技术领域。为了解决现有传统的度量学习在对肺癌数据进行度量时不仅针对符号型数据处理不合理,忽略数据特征中存在混杂异构差异等问题。本发明将肺癌数据根据数值型和符号型这两种特征类型进行拆分;每个样本的每种类型的特征分别按照数值型和符号型进行处理;对于符号型特征进行汉明距离处理得到汉明矩阵,并直接构建样本特征矩阵,然后分别通过高斯核函数计算,得到各自对应的核特征矩阵;肺癌数据经核函数映射到再生核希尔伯特空间,在再生核希尔伯特空间计算特征间的马氏距离来衡量样本距离;基于多核几何平均度量学习的目标函数进行迭代优化。
-
公开(公告)号:CN113838520B
公开(公告)日:2024-03-29
申请号:CN202111136236.4
申请日:2021-09-27
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G16B20/00 , G06F18/22 , G06F18/241
Abstract: 本发明提供一种III型分泌系统效应蛋白识别方法及装置,方法为导入III型分泌系统效应蛋白序列数据文件,获取原始III型分泌系统效应蛋白数据集;从原始III型分泌系统效应蛋白数据集中提取数据特征,根据数据特征构建特征矩阵;对特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;构建特征相似度评分矩阵;通过特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;根据集成策略将第一III型分泌系统效应蛋白基分类器和第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型;本发明提出了一种全新的III型分泌系统效应蛋白识别方法,生成了综合性能更优,得到应用更加广泛的III型分泌系统效应蛋白模型。
-
公开(公告)号:CN117238372A
公开(公告)日:2023-12-15
申请号:CN202311013281.X
申请日:2023-08-11
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本发明属于单细胞RNA测序技术领域,具体涉及一种基于鲁棒非负矩阵分解的单细胞RNA测序数据插补方法。该基于鲁棒非负矩阵分解的单细胞RNA测序数据插补方法,利用基于鲁棒非负矩阵分解的scRNA‑seq数据插补方法的目标函数分别获取细胞特征矩阵W和基因特征矩阵H的最优参数,再利用scRNMF模型预测插补后的细胞基因表达数据 所述目标函数包括C‑loss损失函数和最小平方损失函数两项损失函数。基于鲁棒和非负矩阵分解的scRNA‑seq数据插补方法以下简称为scRNMF。本发明提供的方法通过训练求解目标函数,利用求解结果确定scRNMF模型,使用确定的scRNMF模型进行结果预测。
-
公开(公告)号:CN115206433A
公开(公告)日:2022-10-18
申请号:CN202210900276.X
申请日:2022-07-28
Applicant: 电子科技大学长三角研究院(衢州)
Abstract: 本发明公开了一种增强子预测模型训练方法,包括:获取增强子序列的样本集;根据特征提取算法对所述样本集进行序列特征提取,得到序列特征集;对所述序列特征集进行融合与优化,得到优化特征集;将所述优化特征集导入分类机进行训练,得到增强子预测模型。解决现存无法针对性的预测增强子,和训练模型的精确度不高的的技术问题,通过这种方式,能够充分特征提取的优势,避免维度灾难与模型的过拟合的问题,导入分类机进行训练后,提高了模型的鲁棒性,而且显著提高了对增强子及其强度识别的准确性。
-
公开(公告)号:CN119724349B
公开(公告)日:2025-05-16
申请号:CN202510228817.2
申请日:2025-02-28
Applicant: 电子科技大学长三角研究院(衢州)
IPC: G16B30/00 , G16B40/00 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/0499 , G06N3/0455 , G06N3/082 , G06N3/084 , G06N3/0985
Abstract: 本发明公开了一种基于预训练模型和RNA二级结构的RNA G‑四链体预测方法和系统,包括,获取人类rG4在人类转录本上的位置信息;对于每一条序列,根据其序列位置坐标向两侧进行相同长度的填充使总长度达到设定长度值;获取人类cDNA序列数据作为参考序列,根据填充后的序列坐标从cDNA序列中提取包含侧翼序列信息的rG4数据作为正样本序列;对每条正样本序列进行打乱得到负样本序列;生成每条样本序列的RNA二级结构特征;使用预训练模型提取样本序列的序列特征;将序列特征和RNA二级结构特征输入至预测模型进行模型训练。本方案利用RNA序列的二级结构特征,引入二级结构特征作为辅助信息,能够显著提升模型的预测性能。
-
-
-
-
-
-
-
-
-