Patent search ap:("同济大学") AND inv:"夏琳娟" Page 1

1.

发明公开
基于最大文本密度的网页正文抽取方法无效

公开(公告)号：CN103714176A

公开(公告)日：2014-04-09

申请号：CN201410007832.6

申请日：2014-01-08

Applicant: 同济大学

Inventor： 蒋昌俊 , 陈闳中 , 闫春钢 , 丁志军 , 王鹏伟 , 何源 , 夏琳娟

IPC: G06F17/30

CPC classification number: G06F17/30896

Abstract: 本发明涉及一种基于最大文本密度的网页正文提取方法，其具体步骤如下：步骤一、网页预处理：处理字符编码、网页规范化；步骤二、将网页解析成一棵DOM树，并根据特定标签，将网页中的“标签文本块”抽取出来；步骤三，计算最大文本密度；步骤四，抽取正文；待所有标签文本块都处理完毕后，按照计算出的文本密度进行排序，选取文本密度值最大的标签，此标签及其嵌套的子标签的内容即是正文文本块，去标签之后得到正文文本。本发明是基于统计的使用最大文本密度的网页正文提取算法，其算法复杂度低，具有普适性，而且对于结构复杂的网页也有不错的效果。

Patent Agency Ranking