一种基于Spark大数据平台的并行CRF方法

    公开(公告)号:CN108921188B

    公开(公告)日:2020-11-17

    申请号:CN201810500016.7

    申请日:2018-05-23

    Abstract: 本发明请求保护一种基于Spark大数据平台的并行CRF算法,涉及数据挖掘技术和自然语言处理技术。首先,读取大规模数据集,进行数据初始化处理,将数据集划分为训练集和测试集。其次,获取特征模板,创建分布式训练数据集RDD和分布式特征模型RDD。再次,利用flatMap特征模型将训练数据转换成特征,通过整合相同的特征得到特征RDD,从而生成并行特征。然后,通过梯度计算更新特征权值,直到所有训练数据RDD更新完成,得到特征权值向量。最后,从HDFS上读取训练好的模型数据和测试数据,将测试数据执行特征抽取操作,利用特征权值向量计算得到最优预测标记序列,将输出存在HDFS中。本发明提高了CRF算法的高迭代效率。

    一种基于Spark大数据平台的并行CRF算法

    公开(公告)号:CN108921188A

    公开(公告)日:2018-11-30

    申请号:CN201810500016.7

    申请日:2018-05-23

    Abstract: 本发明请求保护一种基于Spark大数据平台的并行CRF算法,涉及数据挖掘技术和自然语言处理技术。首先,读取大规模数据集,进行数据初始化处理,将数据集划分为训练集和测试集。其次,获取特征模板,创建分布式训练数据集RDD和分布式特征模型RDD。再次,利用flatMap特征模型将训练数据转换成特征,通过整合相同的特征得到特征RDD,从而生成并行特征。然后,通过梯度计算更新特征权值,直到所有训练数据RDD更新完成,得到特征权值向量。最后,从HDFS上读取训练好的模型数据和测试数据,将测试数据执行特征抽取操作,利用特征权值向量计算得到最优预测标记序列,将输出存在HDFS中。本发明提高了CRF算法的高迭代效率。

Patent Agency Ranking