Patent search ap:("东北大学") AND inv:"寇月" Page 6

51.

发明授权
一种DeepWeb响应页面数据抽取方法失效

公开(公告)号：CN101582074B

公开(公告)日：2011-01-26

申请号：CN200910010201.9

申请日：2009-01-21

Applicant: 东北大学

Inventor： 申德荣 , 于戈 , 孙高尚 , 聂铁铮 , 寇月 , 王振华

IPC: G06F17/30

Abstract: 一种DeepWeb响应页面数据抽取方法，属于深层网络数据管理领域，该方法包括以下步骤：(1)选取DeepWeb响应页面Page；在查询页面输入关键字Key，查询得到响应页面Page；(2)抽取页面模板信息；对于响应页面的DOM树结构，找到包含关键字的孩子结点个数Wn最多的双亲结点P，将带标记的token块序列转化为带标记的token字符序列；用LCS算法处理以上两个记录的带标记的token字符序列，分隔并过滤公共token字符序列得到模板信息；(3)数据抽取；(4)token块合并；(5)数据表格聚类；本发明的有益效果：采用本发明的数据抽取方法，适用性强，精度高，效率得到大大提高。

52.

发明授权
一种Web环境下的字符串相似度的分析方法失效

公开(公告)号：CN101561813B

公开(公告)日：2010-09-29

申请号：CN200910011738.7

申请日：2009-05-27

Applicant: 东北大学

Inventor： 于戈 , 申德荣 , 朱命冬 , 寇月 , 聂铁铮 , 王振华

IPC: G06F17/30 , G06F17/22

Abstract: 一种Web环境下的字符串相似度分析方法，首先定义基本操作代价；对字符串预处理，识别它的词首字符和去除非实意字符；创建距离矩阵，通过创建匹配索引实现编辑距离的优化；然后，判断缩写词，先判断两个字符串是否是缩写关系，如果是缩写关系则进行距离优化；其中，缩写关系由2个因素决定：①判断两者是否有相似度；②判断两者的词首字符是否被匹配；之后对缩写词距离优化，通过减少连续插入字符和连续删除字符的代价实现。本发明的字符串相似度分析方法能很好地处理web中经常出现的省略、缩写和字符顺序颠倒情况，具有较高适用性，在Web未知环境下，具有较高的匹配精度。

Patent Agency Ranking