一种使用词袋模型的蛋白质亚细胞区间预测方法

    公开(公告)号:CN104899477B

    公开(公告)日:2018-01-26

    申请号:CN201510341211.6

    申请日:2015-06-18

    Inventor: 张梁 薛卫 赵南

    Abstract: 本发明公开了一种使用词袋模型的蛋白质亚细胞区间预测方法,利用滑动窗口方法分割蛋白质序列,获得大量序列单词的集合,运用氨基酸组成获得序列单词特征,对序列单词特征进行聚类分析构建字典,并通过统计计算获得蛋白质序列的词袋特征,最后将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。可通过实验证明本发明能有效提高识别精度,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。

    空间密度相似性度量K‑means聚类方法

    公开(公告)号:CN106778909A

    公开(公告)日:2017-05-31

    申请号:CN201710022745.1

    申请日:2017-01-12

    CPC classification number: G06K9/6223

    Abstract: 本发明公开了一种空间密度相似性度量K‑means聚类方法,其特征在于该方法采用将空间密度的相似性距离和新的K‑means方法类中心的迭代模型相结合的方法,来改进单一的欧氏距离测量方法和K‑means的迭代规则。本发明的聚类方法不仅可以合理地衡量样本间的距离,同时可以选择出更加可靠稳定的初始聚类中心。同时本发明中新的K‑means方法类中心的迭代模型,使数据集中心点的选择更加准确,尤其是对于非簇型数据集,其中心点的选择完全可以避免在数据集以外的点,使得聚类效果显著提高。

    一种使用词袋模型的蛋白质亚细胞区间预测方法

    公开(公告)号:CN104899477A

    公开(公告)日:2015-09-09

    申请号:CN201510341211.6

    申请日:2015-06-18

    Inventor: 张梁 薛卫 赵南

    Abstract: 本发明公开了一种使用词袋模型的蛋白质亚细胞区间预测方法,利用滑动窗口方法分割蛋白质序列,获得大量序列单词的集合,运用氨基酸组成获得序列单词特征,对序列单词特征进行聚类分析构建字典,并通过统计计算获得蛋白质序列的词袋特征,最后将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。可通过实验证明本发明能有效提高识别精度,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。

Patent Agency Ranking