-
公开(公告)号:CN103744959B
公开(公告)日:2017-01-25
申请号:CN201410004815.7
申请日:2014-01-06
Applicant: 同济大学
IPC: G06F17/30
Abstract: 本发明涉及一种利用改进的蚁群算法提取特征词,具体过程:在预处理时,将所有信息存取到hash表中,其中coco_prepare存取每篇文章的信息,包括文章的id和每个词及其出现的次数;readhdfs_prepare存取每个类的训练集的统计信息,包括每个词的词频,文档数,和类名共现的次数;设置蚁群算法的参数:蚂蚁个数M;迭代次数N;蚂蚁走的步数即特征词个数K;初始化路径信息素矩阵adMatrixs;局部更新衰减速率p1和全局更新衰减速率p2;蚂蚁释放信息素量m;本发明首次引入蚁群算法解决在没有准确样本集的情况下为类提取准确的特征向量的问题。
-
公开(公告)号:CN103744959A
公开(公告)日:2014-04-23
申请号:CN201410004815.7
申请日:2014-01-06
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06F17/30705 , G06N3/00
Abstract: 本发明涉及一种利用改进的蚁群算法提取特征词,具体过程:在预处理时,将所有信息存取到hash表中,其中coco_prepare存取每篇文章的信息,包括文章的id和每个词及其出现的次数;readhdfs_prepare存取每个类的训练集的统计信息,包括每个词的词频,文档数,和类名共现的次数;设置蚁群算法的参数:蚂蚁个数M;迭代次数N;蚂蚁走的步数即特征词个数K;初始化路径信息素矩阵adMatrixs;局部更新衰减速率p1和全局更新衰减速率p2;蚂蚁释放信息素量m;本发明首次引入蚁群算法解决在没有准确样本集的情况下为类提取准确的特征向量的问题。
-
公开(公告)号:CN103744964A
公开(公告)日:2014-04-23
申请号:CN201410005868.0
申请日:2014-01-06
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30705
Abstract: 本发明涉及一种基于局部敏感Hash函数实现网页分类的方法,其特征在于:首先是训练分类器,其输入是所有类的训练集,输出是能够代表特定类的64位的指纹;然后用测试集测试该分类器,在测试通过之后,利用该分类器对待定网页进行分类,分类过程的输入是待分类网页的正文,经过处理将正文内容映射成一个64位的指纹,同所有类的指纹进行对比,计算海明距离;同哪个类的海明距离最小,则判定该网页属于哪个类。本发明通过利用局部敏感hash函数实现对文本的分类,保证准确率的情况下可以大幅度提高分类效率。
-
-