一种基于字典学习的氨基酸序列特征提取方法

    公开(公告)号:CN112908418B

    公开(公告)日:2024-06-28

    申请号:CN202110143746.8

    申请日:2021-02-02

    Abstract: 本发明公开了一种基于字典学习的氨基酸序列特征提取方法。本发明首先给定一种AAindex,每条氨基酸肽序列数据都可用P=R1R2......RL表示,通过给定的AAindex,可将上述序列编码成PE=E1E2......EL。其中Ei为氨基酸残基的Ri的属性值;接着,对肽序列使用n‑gram模型分解成单词并分割成不同长度的片段,之后对同一长度的片段聚类生成字典;最后将样本基于欧氏距离的词频学习字典的特征构成样本特征矩阵。本发明能够有效的对氨基酸序列进行特征提取,实现降维,得到氨基酸中潜在的规律,特征选择的结果对样本类别判定具有重要意义,有效提高样本类别判定的准确率。

    一种基于字典学习的氨基酸序列特征提取方法

    公开(公告)号:CN112908418A

    公开(公告)日:2021-06-04

    申请号:CN202110143746.8

    申请日:2021-02-02

    Abstract: 本发明公开了一种基于字典学习的氨基酸序列特征提取方法。本发明首先给定一种AAindex,每条氨基酸肽序列数据都可用P=R1R2......RL表示,通过给定的AAindex,可将上述序列编码成PE=E1E2......EL。其中Ei为氨基酸残基的Ri的属性值;接着,对肽序列使用n‑gram模型分解成单词并分割成不同长度的片段,之后对同一长度的片段聚类生成字典;最后将样本基于欧氏距离的词频学习字典的特征构成样本特征矩阵。本发明能够有效的对氨基酸序列进行特征提取,实现降维,得到氨基酸中潜在的规律,特征选择的结果对样本类别判定具有重要意义,有效提高样本类别判定的准确率。

Patent Agency Ranking