Patent search ap:("重庆邮电大学") AND inv:"万志超" Page 1

1.

发明授权
一种基于Spark大数据平台的并行CRF方法有权转让

公开(公告)号：CN108921188B

公开(公告)日：2020-11-17

申请号：CN201810500016.7

申请日：2018-05-23

Applicant: 重庆邮电大学

Inventor： 胡峰 , 万志超 , 王国胤 , 于洪 , 张清华 , 刘柯 , 郭英杰 , 周雷 , 王驰龙

IPC: G06K9/62 , G06N20/00 , G06F16/182 , G06F16/27

Abstract: 本发明请求保护一种基于Spark大数据平台的并行CRF算法，涉及数据挖掘技术和自然语言处理技术。首先，读取大规模数据集，进行数据初始化处理，将数据集划分为训练集和测试集。其次，获取特征模板，创建分布式训练数据集RDD和分布式特征模型RDD。再次，利用flatMap特征模型将训练数据转换成特征，通过整合相同的特征得到特征RDD，从而生成并行特征。然后，通过梯度计算更新特征权值，直到所有训练数据RDD更新完成，得到特征权值向量。最后，从HDFS上读取训练好的模型数据和测试数据，将测试数据执行特征抽取操作，利用特征权值向量计算得到最优预测标记序列，将输出存在HDFS中。本发明提高了CRF算法的高迭代效率。

2.

发明公开
一种基于Spark大数据平台的并行CRF算法有权转让

公开(公告)号：CN108921188A

公开(公告)日：2018-11-30

申请号：CN201810500016.7

申请日：2018-05-23

Applicant: 重庆邮电大学

Inventor： 胡峰 , 万志超 , 王国胤 , 于洪 , 张清华 , 刘柯 , 郭英杰 , 周雷 , 王驰龙

IPC: G06K9/62 , G06N99/00

Abstract: 本发明请求保护一种基于Spark大数据平台的并行CRF算法，涉及数据挖掘技术和自然语言处理技术。首先，读取大规模数据集，进行数据初始化处理，将数据集划分为训练集和测试集。其次，获取特征模板，创建分布式训练数据集RDD和分布式特征模型RDD。再次，利用flatMap特征模型将训练数据转换成特征，通过整合相同的特征得到特征RDD，从而生成并行特征。然后，通过梯度计算更新特征权值，直到所有训练数据RDD更新完成，得到特征权值向量。最后，从HDFS上读取训练好的模型数据和测试数据，将测试数据执行特征抽取操作，利用特征权值向量计算得到最优预测标记序列，将输出存在HDFS中。本发明提高了CRF算法的高迭代效率。

Patent Agency Ranking