一种用最近邻检索实现的蛋白质亚细胞定位预测方法

    公开(公告)号:CN105046106B

    公开(公告)日:2018-02-23

    申请号:CN201510411973.9

    申请日:2015-07-14

    Abstract: 一种用最近邻检索实现的蛋白质亚细胞定位预测方法,该方法包括以下步骤:(1)、以AAC特征向量作为蛋白序列的特征,用LSH方法将训练集中的各蛋白序列的AAC特征向量存放在多个哈希表中;(2)、预测时,用LSH方法计算出目标序列AAC特征向量在每一个哈希表中对应的哈希值,得到相似序列向量的集合;(3)、从得到的相似序列向量的集合中选取离目标序列AAC特征向量欧氏距离最近的Q个向量,用全局比对动态规划法计算目标序列AAC特征向量与前述Q个向量的向量间蛋白序列期望距离,将Q个向量中与目标序列期望距离最高的序列蛋白对应区间作为预测区间。

    一种用最近邻检索实现的蛋白质亚细胞定位预测方法

    公开(公告)号:CN105046106A

    公开(公告)日:2015-11-11

    申请号:CN201510411973.9

    申请日:2015-07-14

    Abstract: 一种用最近邻检索实现的蛋白质亚细胞定位预测方法,该方法包括以下步骤:(1)、以AAC特征向量作为蛋白序列的特征,用LSH方法将训练集中的各蛋白序列的AAC特征向量存放在多个哈希表中;(2)、预测时,用LSH方法计算出目标序列AAC特征向量在每一个哈希表中对应的哈希值,得到相似序列向量的集合;(3)、从得到的相似序列向量的集合中选取离目标序列AAC特征向量欧氏距离最近的Q个向量,用全局比对动态规划法计算目标序列AAC特征向量与前述Q个向量的向量间蛋白序列期望距离,将Q个向量中与目标序列期望距离最高的序列蛋白对应区间作为预测区间。

    一种使用词袋模型的蛋白质亚细胞区间预测方法

    公开(公告)号:CN104899477B

    公开(公告)日:2018-01-26

    申请号:CN201510341211.6

    申请日:2015-06-18

    Inventor: 张梁 薛卫 赵南

    Abstract: 本发明公开了一种使用词袋模型的蛋白质亚细胞区间预测方法,利用滑动窗口方法分割蛋白质序列,获得大量序列单词的集合,运用氨基酸组成获得序列单词特征,对序列单词特征进行聚类分析构建字典,并通过统计计算获得蛋白质序列的词袋特征,最后将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。可通过实验证明本发明能有效提高识别精度,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。

    空间密度相似性度量K‑means聚类方法

    公开(公告)号:CN106778909A

    公开(公告)日:2017-05-31

    申请号:CN201710022745.1

    申请日:2017-01-12

    CPC classification number: G06K9/6223

    Abstract: 本发明公开了一种空间密度相似性度量K‑means聚类方法,其特征在于该方法采用将空间密度的相似性距离和新的K‑means方法类中心的迭代模型相结合的方法,来改进单一的欧氏距离测量方法和K‑means的迭代规则。本发明的聚类方法不仅可以合理地衡量样本间的距离,同时可以选择出更加可靠稳定的初始聚类中心。同时本发明中新的K‑means方法类中心的迭代模型,使数据集中心点的选择更加准确,尤其是对于非簇型数据集,其中心点的选择完全可以避免在数据集以外的点,使得聚类效果显著提高。

    一种使用词袋模型的蛋白质亚细胞区间预测方法

    公开(公告)号:CN104899477A

    公开(公告)日:2015-09-09

    申请号:CN201510341211.6

    申请日:2015-06-18

    Inventor: 张梁 薛卫 赵南

    Abstract: 本发明公开了一种使用词袋模型的蛋白质亚细胞区间预测方法,利用滑动窗口方法分割蛋白质序列,获得大量序列单词的集合,运用氨基酸组成获得序列单词特征,对序列单词特征进行聚类分析构建字典,并通过统计计算获得蛋白质序列的词袋特征,最后将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。可通过实验证明本发明能有效提高识别精度,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。

Patent Agency Ranking