-
公开(公告)号:CN102999514B
公开(公告)日:2017-04-05
申请号:CN201110272142.X
申请日:2011-09-14
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提供了用于获得网页及其链接前缀信息的方法、装置和设备。本发明获取待生成网页中部分或全部网页链接的公共参数信息,并b根据所述公共参数信息,生成对应所述待生成网页的链接前缀信息;本发明还获取所述部分或全部网页链接的与该链接前缀对应的相对链接信息,并将其加入所述待生成网页中,其中,所述相对链接信息用于和所述链接前缀合并以生成所述部分或全部网页链接的绝对链接信息。与现有技术相比,本发明通过将包含于网页的多个链接中的重复的参数信息移至链接前缀信息中,减少了网页所包含的链接信息量。
-
公开(公告)号:CN102314494B
公开(公告)日:2014-04-02
申请号:CN201110247492.0
申请日:2011-08-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明的目的是提供一种用于处理网页内容的方法和设备,其中,本发明根据待处理的网页的相关信息,在特征文本库中进行匹配查询,以获得与所述网页相对应的特征文本,进而用于将所述特征文本在与所述网页相对应的DOM树的各节点中进行匹配查询,以获得包含所述特征文本的特征文本节点,从而根据所述特征文本节点中的特征节点内容,生成与所述网页相对应的新网页。与现有技术相比,本发明将网页中的特征文本在网页的DOM树中进行匹配查询,以提取包含特征文本的特征文本节点的内容,进而生成新的网页,其对于具有特定内容和结构特征的网页的处理效率高,同时,可对网页内容进行重新布局以满足用户的浏览需求,进而提升用户体验。
-
公开(公告)号:CN102314497A
公开(公告)日:2012-01-11
申请号:CN201110249348.0
申请日:2011-08-26
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明的目的是提供一种用于识别标记语言文件主体内容的方法与设备。其中,模板提供设备获取待处理的多个标记语言文件;根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。与现有技术相比,本发明不依赖于标记语言文件中的具体内容而根据该标记语言文件的结构信息获取主体内容,从而保证对不同类型网页的主体内容识别的准确率。
-
公开(公告)号:CN103678386B
公开(公告)日:2017-10-03
申请号:CN201210348371.X
申请日:2012-09-18
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种在移动终端中进行转码的方法,包括:移动终端向代理服务器发送访问第三方站点的页面的请求,以使所述代理服务器根据所述请求获得所述页面对应的分析模板和/或分析规则以及转码程序;所述移动终端接收所述代理服务器发送的所述分析模板和/或分析规则以及转码程序;所述移动终端执行所述转码程序并抓取所述页面;以及所述移动终端根据所述分析模板和/或分析规则对所述页面进行转码。本发明将转码过程转移到移动终端,同时在代理服务器中进行计算和匹配,既能够减轻移动终端计算压力,又在一定程度上降低转码的法律风险。本发明还公开了一种在移动终端中进行转码的系统、一种代理服务器以及一种移动终端。
-
公开(公告)号:CN103218390A
公开(公告)日:2013-07-24
申请号:CN201210592976.3
申请日:2012-12-31
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提出了一种站点资源管理方法,包括以下步骤:对web站点进行数据挖掘以获取web站点中各个页面的URL数据;对各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中TAG特征和Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;根据各个页面的TAG特征和Mypos特征得到各个页面在预定分类表的各个分类下的权重。本发明还提出了一种站点资源管理装置。本发明根据网页内容等因素针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据。
-
公开(公告)号:CN102999514A
公开(公告)日:2013-03-27
申请号:CN201110272142.X
申请日:2011-09-14
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提供了用于获得网页及其链接前缀信息的方法、装置和设备。本发明获取待生成网页中部分或全部网页链接的公共参数信息,并b根据所述公共参数信息,生成对应所述待生成网页的链接前缀信息;本发明还获取所述部分或全部网页链接的与该链接前缀对应的相对链接信息,并将其加入所述待生成网页中,其中,所述相对链接信息用于和所述链接前缀合并以生成所述部分或全部网页链接的绝对链接信息。与现有技术相比,本发明通过将包含于网页的多个链接中的重复的参数信息移至链接前缀信息中,减少了网页所包含的链接信息量。
-
公开(公告)号:CN101944104A
公开(公告)日:2011-01-12
申请号:CN201010256704.7
申请日:2010-08-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提供一种网页分块的重要度评估方法和设备。其中该方法包括以下步骤:识别网页分块所在网页的类型以及所述网页分块的类型;根据所述网页的类型、所述网页分块的类型以及所述网页分块的属性,确定所述网页分块的权重值;对所述网页内的所述网页分块的权重值进行排序。本发明的优点是,根据网页的类型、网页分块的类型以及网页分块的属性,更为准确地确定网页分块的权重值,然后根据权重值对网页分块进行展开或者折叠,使网页适合于移动终端显示,便于用户浏览。
-
公开(公告)号:CN103678317B
公开(公告)日:2017-07-25
申请号:CN201210320716.0
申请日:2012-08-31
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提出一种网页布局的自动适配方法,包括:代理服务器接收用户通过移动终端发送的访问第三方站点的网页的请求;代理服务器抓取网页,并对网页进行分析以获得网页中至少部分的级联样式表CSS属性;代理服务器获得网页对应的转换规则;代理服务器根据转换规则对CSS属性进行修改;代理服务器将具有修改后的CSS属性的网页发送至移动终端。本发明通过修改CSS,从而在保留原网页DOM树结构的同时修改了网页布局。本发明的第二个目的在于提出一种网页布局的自动适配系统以及一种代理服务器。
-
公开(公告)号:CN102571969B
公开(公告)日:2015-11-25
申请号:CN201210018231.6
申请日:2012-01-19
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 李伟刚
Abstract: 本发明的目的是提供一种用于获得网页中的网络访问识别信息的方法、装置、设备和系统。其中,根据本发明的方案包括:接收来自所述第二网络设备的、待转发至所述用户设备的网页信息;对所述网页信息中的各个网页地址信息分别执行转换处理,以生成包括所述第一网络设备的网络地址信息的转换后的新网页地址信息,从而获得包含经过转换处理的新网页地址信息的网页信息;将所述网页地址转换后的网页信息发送至所述用户设备。本发明的优点在于,用户设备可分别获得经由同一第一网络设备中转的,来自不同的第二网络设备的网页的网络访问识别信息,并且可避免直接在第一网络设备中执行大量读取cookie信息的操作,减轻了第一网络设备的负担。
-
公开(公告)号:CN102314497B
公开(公告)日:2014-12-10
申请号:CN201110249348.0
申请日:2011-08-26
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明的目的是提供一种用于识别标记语言文件主体内容的方法与设备。其中,模板提供设备获取待处理的多个标记语言文件;根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。与现有技术相比,本发明不依赖于标记语言文件中的具体内容而根据该标记语言文件的结构信息获取主体内容,从而保证对不同类型网页的主体内容识别的准确率。
-
-
-
-
-
-
-
-
-