一种基于MPI和Adaboost.MH的中文文本分类方法

    公开(公告)号:CN107092644A

    公开(公告)日:2017-08-25

    申请号:CN201710131434.9

    申请日:2017-03-07

    Abstract: 本发明公开了一种基于MPI和Adaboost.MH的中文文本分类方法,用于解决当数据量较大时,Adaboost.MH训练时间较长因而导致总的中文文本分类时间较长的问题。该方法包括:将经过分词处理的中文文本保存到训练数据集,然后将互信息方法与MPI相结合,实现特征词选择,然后所有进程通过MPI中的MPI_Reduce函数进行归约求和进而求得相似度,根据相似度的大小选择特征词。接着每个进程根据其所包含的中文文本中选择的特征词是否存在来给特征词赋予权值。然后根据MPI的通信函数将进程计算结果进行整合得到文本分类模型,利用分类模型对待分类的中文文本分类。本发明极大地缩短了对中文文本进行分类的时间。

    一种基于MPI并行将连续属性进行离散化的方法

    公开(公告)号:CN107958266A

    公开(公告)日:2018-04-24

    申请号:CN201711164678.3

    申请日:2017-11-21

    CPC classification number: G06K9/6223 G06F9/546

    Abstract: 本发明请求保护一种基于MPI并行将连续属性进行离散化的方法,涉及粗糙集,离散化,并行计算,聚类等概念。首先,读取信息系统的数据,将信息系统水平划分为m个样本数据子集,通过通信分配给n个节点;其次,每个节点并行对数据进行归一化处理,得到新的数据,再并行对属性进行聚类,通过通信合并聚类结果;最后根据聚类结果进行区间划分,并对不同的区间进行属性编码,从而得到连续属性离散化的结果,构造出属性离散化后的信息系统,从而能利用粗糙集知识进行属性约简等后续工作。本发明结合了粗糙集连续属性离散化方法和MPI并行计算,从而使得连续属性离散化过程可以并行求得,提高算法的效率。

Patent Agency Ranking