• 专利标题: 基于查询接口连接图的深层网页数据源分类管理方法
  • 专利标题(英): Deep layer web page data source sort management method based on query interface connection drawing
  • 申请号: CN200810024251.8
    申请日: 2008-05-16
  • 公开(公告)号: CN101320370A
    公开(公告)日: 2008-12-10
  • 发明人: 崔志明赵朋朋方巍
  • 申请人: 崔志明赵朋朋方巍
  • 申请人地址: 江苏省苏州市苏安新村115幢403室
  • 专利权人: 崔志明,赵朋朋,方巍
  • 当前专利权人: 束兰
  • 当前专利权人地址: 江苏省苏州市苏安新村115幢403室
  • 代理机构: 苏州创元专利商标事务所有限公司
  • 代理商 陶海锋
  • 主分类号: G06F17/30
  • IPC分类号: G06F17/30
基于查询接口连接图的深层网页数据源分类管理方法
摘要:
本发明公开了一种基于查询接口连接图的深层网页数据源分类管理方法,包括下列步骤:(1)获取深层网页查询接口表单集合;(2)自动抽取步骤(1)获取的查询接口表单的特征值,所述特征值包括表单标签的名称以及属性值;(3)构造表单特征向量;(4)在步骤(3)获得的向量集合中,对每个向量之间通过相似性比较获得关于标签、属性值、标签与属性值组合的关联邻接矩阵;(5)构造查询接口表单集合的连接图,可用关联邻接矩阵表示;(6)利用聚类方法对带权无向图进行聚类;(7)获得深层网页数据源聚类结果。本发明通过有效构造深层网页数据源查询接口连接图,结合图挖掘技术,提高了大规模深层网页数据源自动分类管理的性能。
0/0