基于最大文本密度的网页正文抽取方法

    公开(公告)号:CN103714176A

    公开(公告)日:2014-04-09

    申请号:CN201410007832.6

    申请日:2014-01-08

    Applicant: 同济大学

    CPC classification number: G06F17/30896

    Abstract: 本发明涉及一种基于最大文本密度的网页正文提取方法,其具体步骤如下:步骤一、网页预处理:处理字符编码、网页规范化;步骤二、将网页解析成一棵DOM树,并根据特定标签,将网页中的“标签文本块”抽取出来;步骤三,计算最大文本密度;步骤四,抽取正文;待所有标签文本块都处理完毕后,按照计算出的文本密度进行排序,选取文本密度值最大的标签,此标签及其嵌套的子标签的内容即是正文文本块,去标签之后得到正文文本。本发明是基于统计的使用最大文本密度的网页正文提取算法,其算法复杂度低,具有普适性,而且对于结构复杂的网页也有不错的效果。

Patent Agency Ranking