-
公开(公告)号:CN104598536B
公开(公告)日:2017-10-20
申请号:CN201410840847.0
申请日:2014-12-29
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种分布式网络信息结构化处理方法。对网络信息采集任务进行配置,将用户感兴趣的网页进行分类保存,作为目标网页;对网络信息进行采集,通过多个map/reduce过程共同协作采集网页并进行结构化处理,保存在HDFS文件系统中;将结构化处理后的网页采用树编辑距离的方式,进行结构化聚类;对聚类后的网页信息进行结构化提取,保存到数据库中。本发明采用了分布式的架构,利用廉价的计算机集群的计算以及存储能力来处理数据量庞大的网络数据;有效的对网页进行分类;采用了结构化的方式对网络信息进行提取并保存,方便了对网络信息的进一步分析处理。
-
公开(公告)号:CN104598536A
公开(公告)日:2015-05-06
申请号:CN201410840847.0
申请日:2014-12-29
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/30194 , G06F17/30091 , G06F17/30115
Abstract: 本发明公开了一种分布式网络信息结构化处理方法。对网络信息采集任务进行配置,将用户感兴趣的网页进行分类保存,作为目标网页;对网络信息进行采集,通过多个map/reduce过程共同协作采集网页并进行结构化处理,保存在HDFS文件系统中;将结构化处理后的网页采用树编辑距离的方式,进行结构化聚类;对聚类后的网页信息进行结构化提取,保存到数据库中。本发明采用了分布式的架构,利用廉价的计算机集群的计算以及存储能力来处理数据量庞大的网络数据;有效的对网页进行分类;采用了结构化的方式对网络信息进行提取并保存,方便了对网络信息的进一步分析处理。
-