-
公开(公告)号:CN101320370A
公开(公告)日:2008-12-10
申请号:CN200810024251.8
申请日:2008-05-16
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于查询接口连接图的深层网页数据源分类管理方法,包括下列步骤:(1)获取深层网页查询接口表单集合;(2)自动抽取步骤(1)获取的查询接口表单的特征值,所述特征值包括表单标签的名称以及属性值;(3)构造表单特征向量;(4)在步骤(3)获得的向量集合中,对每个向量之间通过相似性比较获得关于标签、属性值、标签与属性值组合的关联邻接矩阵;(5)构造查询接口表单集合的连接图,可用关联邻接矩阵表示;(6)利用聚类方法对带权无向图进行聚类;(7)获得深层网页数据源聚类结果。本发明通过有效构造深层网页数据源查询接口连接图,结合图挖掘技术,提高了大规模深层网页数据源自动分类管理的性能。
-
公开(公告)号:CN101515287A
公开(公告)日:2009-08-26
申请号:CN200910029561.3
申请日:2009-03-24
摘要: 本发明公开了一种用于复杂页面的包装器自动生成方法,包括下列步骤:(1)获取基于同一模板的两个HTML页面文档,生成HTML标记树;(2)获得包含数据记录集合的最小区域DS;(3)从最小区域中获取初始数据记录;(4)根据初始的数据记录DR的布局组合关系,依据特征项的相似度,确定抽取项的聚集关系,并结合领域本体的知识,对同一聚集块中实体进行语义标注,根据实体间语义关系重新组合成新的数据记录;(5)根据步骤(4)中生成的数据记录在HTML标记树中的位置关系,生成每个聚集块的抽取规则,然后构建包装器。本发明能够通过对HTML Tag树的结构关系的分析,从复杂页面中抽取出真正的数据记录规则,从而可以自动构建抽取准确率高的包装器。
-
公开(公告)号:CN101051313A
公开(公告)日:2007-10-10
申请号:CN200710021883.4
申请日:2007-05-09
IPC分类号: G06F17/30
摘要: 本发明公开了一种用于深层网页数据源集成的数据源发现方法,包括下列步骤:(1)构建站点根链接队列和本地链接队列;(2)从本地链接队列中取评分最高的页面链接,由爬行模块下载;(3)利用表单分类器对下载的页面进行处理,如其中含有表单查询接口,则将其加入深层网页数据源中;(4)利用页面分类器对下载的页面进行处理,如果主题评分小于设定阈值,则返回步骤(2);(5)提取页面中的链接地址,经链接分类器判断后分别放入本地链接队列、站点根链接队列或抛弃;(6)重复步骤(2)至步骤(5),实现深层网页数据源的自动爬行。本发明是一种非常高效的Deep Web数据源获取方法,它能够较大范围地提高人们的工作效率,为进一步实现深层网页数据源集成提供基础。
-
公开(公告)号:CN100452054C
公开(公告)日:2009-01-14
申请号:CN200710021883.4
申请日:2007-05-09
IPC分类号: G06F17/30
摘要: 本发明公开了一种用于深层网页数据源集成的数据源发现方法,包括下列步骤:(1)构建站点根链接队列和本地链接队列;(2)从本地链接队列中取评分最高的页面链接,由爬行模块下载;(3)利用表单分类器对下载的页面进行处理,如其中含有表单查询接口,则将其加入深层网页数据源中;(4)利用页面分类器对下载的页面进行处理,如果主题评分小于设定阈值,则返回步骤(2);(5)提取页面中的链接地址,经链接分类器判断后分别放入本地链接队列、站点根链接队列或抛弃;(6)重复步骤(2)至步骤(5),实现深层网页数据源的自动爬行。本发明是一种非常高效的Deep Web数据源获取方法,它能够较大范围地提高人们的工作效率,为进一步实现深层网页数据源集成提供基础。
-
公开(公告)号:CN102682119A
公开(公告)日:2012-09-19
申请号:CN201210150789.X
申请日:2012-05-16
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于动态知识的深层网页数据获取方法。本发明利用集成系统已获取的数据动态构建知识,并在集成系统动态知识的基础之上进行查询关键词的选择,也就是说在对数据源进行数据获取时,利用所获取的数据提取新的查询关键词,以扩展查询候选池,并更新查询关键词的统计知识,从而提高了查询选择的准确性,并进一步提高了数据获取的覆盖率。在使用循环策略进行数据获取时,对于每个数据源可以多次利用丰富后的集成系统动态知识进行查询选择,从而有效率提高查询选择的准确性,提高数据获取的效率。
-
公开(公告)号:CN102682119B
公开(公告)日:2014-03-05
申请号:CN201210150789.X
申请日:2012-05-16
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于动态知识的深层网页数据获取方法。本发明利用集成系统已获取的数据动态构建知识,并在集成系统动态知识的基础之上进行查询关键词的选择,也就是说在对数据源进行数据获取时,利用所获取的数据提取新的查询关键词,以扩展查询候选池,并更新查询关键词的统计知识,从而提高了查询选择的准确性,并进一步提高了数据获取的覆盖率。在使用循环策略进行数据获取时,对于每个数据源可以多次利用丰富后的集成系统动态知识进行查询选择,从而有效率提高查询选择的准确性,提高数据获取的效率。
-
公开(公告)号:CN101923560A
公开(公告)日:2010-12-22
申请号:CN201010147339.6
申请日:2010-04-03
IPC分类号: G06F17/30
摘要: 本发明公开了一种只提供简单查询接口的深层网页数据库的分类方法,设置深层网页数据库的结果模式和结果页面数据区域内容作为两种分类特征,根据两种分类特征分别建立基于结果模式的分类器和基于结果页面数据区域内容的分类器;进行基于结果模式的分类获得简单查询接口基于结果模式属于领域D的概率ω;进行基于结果页面数据区域内容的分类获得该简单查询接口基于结果页面数据区域内容属于领域D的概率θ;集成两种分类方法的结果,根据权重和分类阈值确定待分类深层网页数据库的类别。本发明可以实现只提供简单查询接口的深层网页数据库的自动分类。实验证明,本发明的方法具有较高的准确度。
-
公开(公告)号:CN101082983A
公开(公告)日:2007-12-05
申请号:CN200710023872.X
申请日:2007-06-22
摘要: 本发明公开了一种基于感兴趣区域的自适应医学序列图像断层间插值方法,该方法充分利用组织相关性和体素相关性等特点,先判断待插值点是否属于感兴趣区域,再据此选择适当的插值方法。本发明不仅考虑了灰度的变化,也兼顾了解剖结构轮廓的变化,从而更好的解决了传统插值方法的不足,使新插值出的图片更接近于实际情况。实验证明,本发明的视觉效果和图像质量有了较大的改进,插值出的图片轮廓清晰、噪声较小、不再有双重轮廓,提高了插值的质量,更重要的是计算时间大大减少。将本发明应用于三维重建和显示的系统中,使绘制出来的图像边界清晰,把梯田效应减少到最低,更符合实际需求,从而较大范围地提高医生判断的准确性和工作效率。
-
公开(公告)号:CN102436598A
公开(公告)日:2012-05-02
申请号:CN201110265681.0
申请日:2011-09-08
IPC分类号: G06N3/08
摘要: 本发明公开了一种基于交通图像信息的车辆最优路径挖掘方法,包括下列步骤:(1)标定摄像头,记录地理位置信息;(2)根据道路可达性测量相邻摄像头之间的路程距离(3)构建摄像头分布网络图;(4)对每一子结点设置3个堆栈,分别存放固定信息、历史信息、实时信息;(5)根据3种堆栈的所有信息构建神经网络的输入层,确定输出层;(6)对神经网络的隐含层构建深层学习框架,进行3层逐层(layerbylayer)学习,输出路径序列;(7)将输出的结果连成线即为一个有向图中的最优路径;(8)将此最优路径通过各结点路程相加,可得最优路径总长度,根据交通流量,可以估算出出发地至目的地的时间;步骤(9):生成一张交通引导图。本发明能根据采集点的固定信息、历史采集信息和实时采集信息。使用深层神经网络计算,生成最优路径,为智能交通系统提供了一种新的可靠的最优路径挖掘方法。
-
公开(公告)号:CN101393607B
公开(公告)日:2010-12-15
申请号:CN200810195832.8
申请日:2008-09-03
摘要: 本发明公开了一种利用快速边界跟踪实现脑血管图像识别的方法,获取所需识别的原始脑血管图像并进行预处理,再作梯度化处理,将梯度化后图像中梯度值最大的像素点作为起始像素点,进行边界点跟踪判断,将得到的所有边界点重新绘制成一幅图像,即为所需的处理后的脑血管图像;其特征在于:选取远离上一点的当前点的三个邻接点为候选节点。并根据这些节点位置信息的重要性不同分配不同的权值,以确定下一邻接点,从而得到脑血管图像的边界跟踪图。本发明提取出的边缘图片轮廓清晰、噪声较小、精度高,边界平滑,提高了边缘提取的质量,计算时间大大减少;应用于计算机辅助诊断脑血管病的系统中,提高了计算机判断脑血管病变部位与病变类型的准确性。
-
-
-
-
-
-
-
-
-