一种基于动态知识的深层网页数据获取方法

    公开(公告)号:CN102682119A

    公开(公告)日:2012-09-19

    申请号:CN201210150789.X

    申请日:2012-05-16

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于动态知识的深层网页数据获取方法。本发明利用集成系统已获取的数据动态构建知识,并在集成系统动态知识的基础之上进行查询关键词的选择,也就是说在对数据源进行数据获取时,利用所获取的数据提取新的查询关键词,以扩展查询候选池,并更新查询关键词的统计知识,从而提高了查询选择的准确性,并进一步提高了数据获取的覆盖率。在使用循环策略进行数据获取时,对于每个数据源可以多次利用丰富后的集成系统动态知识进行查询选择,从而有效率提高查询选择的准确性,提高数据获取的效率。

    一种基于动态知识的深层网页数据获取方法

    公开(公告)号:CN102682119B

    公开(公告)日:2014-03-05

    申请号:CN201210150789.X

    申请日:2012-05-16

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于动态知识的深层网页数据获取方法。本发明利用集成系统已获取的数据动态构建知识,并在集成系统动态知识的基础之上进行查询关键词的选择,也就是说在对数据源进行数据获取时,利用所获取的数据提取新的查询关键词,以扩展查询候选池,并更新查询关键词的统计知识,从而提高了查询选择的准确性,并进一步提高了数据获取的覆盖率。在使用循环策略进行数据获取时,对于每个数据源可以多次利用丰富后的集成系统动态知识进行查询选择,从而有效率提高查询选择的准确性,提高数据获取的效率。

    只提供简单查询接口的深层网页数据库的分类方法

    公开(公告)号:CN101923560A

    公开(公告)日:2010-12-22

    申请号:CN201010147339.6

    申请日:2010-04-03

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种只提供简单查询接口的深层网页数据库的分类方法,设置深层网页数据库的结果模式和结果页面数据区域内容作为两种分类特征,根据两种分类特征分别建立基于结果模式的分类器和基于结果页面数据区域内容的分类器;进行基于结果模式的分类获得简单查询接口基于结果模式属于领域D的概率ω;进行基于结果页面数据区域内容的分类获得该简单查询接口基于结果页面数据区域内容属于领域D的概率θ;集成两种分类方法的结果,根据权重和分类阈值确定待分类深层网页数据库的类别。本发明可以实现只提供简单查询接口的深层网页数据库的自动分类。实验证明,本发明的方法具有较高的准确度。