-
公开(公告)号:CN102193944A
公开(公告)日:2011-09-21
申请号:CN201010125191.6
申请日:2010-03-12
Applicant: 三星电子(中国)研发中心 , 三星电子株式会社
IPC: G06F17/30
Abstract: 本发明公开了一种网页主题内容抽取方法。该方法包括步骤:从简易信息聚合(RSS:Really Simple Syndication)文件中选择最新的RSS信息及其对应的网页;搜索所述RSS信息在其对应的所述网页的树状结构(Dom Tree)中的位置,将所述位置的信息作为网页模板;利用所述网页模板对多个目标网页进行主题内容的抽取。该方法还包括步骤:每当对所述多个目标网页中的预定个数的目标网页进行了主题内容抽取后,重新生成所述网页模板并继续进行所述多个目标网页的主题内容的抽取。