-
公开(公告)号:CN108921188B
公开(公告)日:2020-11-17
申请号:CN201810500016.7
申请日:2018-05-23
Applicant: 重庆邮电大学
IPC: G06K9/62 , G06N20/00 , G06F16/182 , G06F16/27
Abstract: 本发明请求保护一种基于Spark大数据平台的并行CRF算法,涉及数据挖掘技术和自然语言处理技术。首先,读取大规模数据集,进行数据初始化处理,将数据集划分为训练集和测试集。其次,获取特征模板,创建分布式训练数据集RDD和分布式特征模型RDD。再次,利用flatMap特征模型将训练数据转换成特征,通过整合相同的特征得到特征RDD,从而生成并行特征。然后,通过梯度计算更新特征权值,直到所有训练数据RDD更新完成,得到特征权值向量。最后,从HDFS上读取训练好的模型数据和测试数据,将测试数据执行特征抽取操作,利用特征权值向量计算得到最优预测标记序列,将输出存在HDFS中。本发明提高了CRF算法的高迭代效率。
-
公开(公告)号:CN108921188A
公开(公告)日:2018-11-30
申请号:CN201810500016.7
申请日:2018-05-23
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于Spark大数据平台的并行CRF算法,涉及数据挖掘技术和自然语言处理技术。首先,读取大规模数据集,进行数据初始化处理,将数据集划分为训练集和测试集。其次,获取特征模板,创建分布式训练数据集RDD和分布式特征模型RDD。再次,利用flatMap特征模型将训练数据转换成特征,通过整合相同的特征得到特征RDD,从而生成并行特征。然后,通过梯度计算更新特征权值,直到所有训练数据RDD更新完成,得到特征权值向量。最后,从HDFS上读取训练好的模型数据和测试数据,将测试数据执行特征抽取操作,利用特征权值向量计算得到最优预测标记序列,将输出存在HDFS中。本发明提高了CRF算法的高迭代效率。
-