-
公开(公告)号:CN106446072B
公开(公告)日:2019-10-18
申请号:CN201610807127.3
申请日:2016-09-07
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/957
Abstract: 本发明实施例公开了一种网页内容的处理方法和装置。所述方法包括:读取与待处理网页对应的HTML结构正文数据;以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。本发明实施例的技术方案在识别出网页正文各段落中包括的标题以及段落正文,并将其整理归纳到一起生成标题文本对后,可以实现使用识别出的标题文本对中的标题来进一步描述网页内容,扩充网页内容的描述信息的技术效果,极大的简化了网页的分析过程,优化了现有的网页内容的处理技术,满足了人们日益增长的个性化、便捷化的网页内容的处理需求。
-
公开(公告)号:CN107832414B
公开(公告)日:2021-10-22
申请号:CN201711084160.9
申请日:2017-11-07
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/9535 , G06N3/08 , H04L29/08
Abstract: 本申请实施例公开了用于推送信息的方法和装置。该方法的一具体实施方式包括:对获取的用户查询语句进行意图分析,得到意图信息;采用用户查询语句在待推送内容库中检索,确定出目标推送内容;基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息;推送目标推送内容的摘要信息。该实施方式实现了基于用户意图的摘要信息提取和推送,提升了用户获取信息的效率。
-
公开(公告)号:CN107391675B
公开(公告)日:2021-03-09
申请号:CN201710602034.1
申请日:2017-07-21
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/951 , G06F16/9532 , G06F16/955 , G06F40/289 , G06F40/216
Abstract: 本申请实施例公开了用于生成结构化信息的方法和装置。方法的一具体实施方式包括:抓取预定领域的企业网站的所有页面内容;根据页面内容的特征,将页面内容分类至预先构建的企业信息的类别以及其它类别,得到分类页面;将分类页面分为内容页面和表单页面,并将内容页面和表单页面作为标签,标记分类页面;对标记后的分类页面进行以下至少一项抽取,得到抽取的信息:正文块抽取、正文内容结构化抽取、图文块抽取、列表块抽取和预定位置内容结构化;根据抽取的信息,构建结构化信息。该实施方式保证了信息来源的多样性,使得生成的结构化信息所呈现的内容特征丰富且减少了冗余信息。
-
公开(公告)号:CN107832414A
公开(公告)日:2018-03-23
申请号:CN201711084160.9
申请日:2017-11-07
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06F17/30654 , G06F17/30684 , G06F17/30867 , H04L67/26
Abstract: 本申请实施例公开了用于推送信息的方法和装置。该方法的一具体实施方式包括:对获取的用户查询语句进行意图分析,得到意图信息;采用用户查询语句在待推送内容库中检索,确定出目标推送内容;基于意图信息对目标推送内容进行摘要语句提取,生成目标推送内容的摘要信息;推送目标推送内容的摘要信息。该实施方式实现了基于用户意图的摘要信息提取和推送,提升了用户获取信息的效率。
-
公开(公告)号:CN108334489B
公开(公告)日:2021-05-14
申请号:CN201710044590.1
申请日:2017-01-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F40/284 , G06F40/289
Abstract: 本申请公开了一种文本核心词识别方法和装置,其中,该方法包括:根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及利用所述文本核心词识别模型,识别目标文本的核心词。应用本申请,可通过多层次优化训练样本,提高文本核心词识别模型的识别准确率,以此提高抽取的核心词的准确度。
-
公开(公告)号:CN108334489A
公开(公告)日:2018-07-27
申请号:CN201710044590.1
申请日:2017-01-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/27
Abstract: 本申请公开了一种文本核心词识别方法和装置,其中,该方法包括:根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及利用所述文本核心词识别模型,识别目标文本的核心词。应用本申请,可通过多层次优化训练样本,提高文本核心词识别模型的识别准确率,以此提高抽取的核心词的准确度。
-
公开(公告)号:CN107609152A
公开(公告)日:2018-01-19
申请号:CN201710867794.5
申请日:2017-09-22
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本申请公开了用于扩展查询式的方法和装置。该方法的一具体实施方式包括:基于与目标查询式关联的图片点击日志计算目标查询式的图片点击特征向量;基于目标查询式的图片点击特征向量,在预设的查询式集合中查找目标查询式的相似查询式,得到目标查询式的候选扩展查询式集合;将目标查询式和各候选扩展查询式与知识图谱中的实体词和限定词匹配,以提取出目标查询式和各候选扩展查询式的实体词和限定词;结合知识图谱对目标查询式和各候选扩展查询式的实体词和限定词进行扩展;对目标查询式和各候选扩展查询式的实体词和限定词的扩展结果进行匹配,以从候选扩展查询式集合中确定出目标查询式的扩展查询式。该实施方式提升了扩展查询式的丰富性。
-
公开(公告)号:CN106446072A
公开(公告)日:2017-02-22
申请号:CN201610807127.3
申请日:2016-09-07
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明实施例公开了一种网页内容的处理方法和装置。所述方法包括:读取与待处理网页对应的HTML结构正文数据;以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。本发明实施例的技术方案在识别出网页正文各段落中包括的标题以及段落正文,并将其整理归纳到一起生成标题文本对后,可以实现使用识别出的标题文本对中的标题来进一步描述网页内容,扩充网页内容的描述信息的技术效果,极大的简化了网页的分析过程,优化了现有的网页内容的处理技术,满足了人们日益增长的个性化、便捷化的网页内容的处理需求。
-
公开(公告)号:CN107590288A
公开(公告)日:2018-01-16
申请号:CN201710941523.X
申请日:2017-10-11
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本申请公开了用于抽取网页图文块的方法和装置。该方法的一具体实施方式包括:从待处理网页的文档对象模型中提取出图片节点;基于预设的过滤规则对图片节点进行过滤,得到候选图片节点;对每一个候选图片节点,在预设的最大遍历深度范围内依次向候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为候选图片节点对应的候选图文块,并生成候选图文块的路径信息;基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇;对每个图文块簇,基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点,基于共同祖先节点确定图文块簇的路径信息。该实施方式提升了网页图文块的抽取效率。
-
公开(公告)号:CN107391675A
公开(公告)日:2017-11-24
申请号:CN201710602034.1
申请日:2017-07-21
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本申请实施例公开了用于生成结构化信息的方法和装置。方法的一具体实施方式包括:抓取预定领域的企业网站的所有页面内容;根据页面内容的特征,将页面内容分类至预先构建的企业信息的类别以及其它类别,得到分类页面;将分类页面分为内容页面和表单页面,并将内容页面和表单页面作为标签,标记分类页面;对标记后的分类页面进行以下至少一项抽取,得到抽取的信息:正文块抽取、正文内容结构化抽取、图文块抽取、列表块抽取和预定位置内容结构化;根据抽取的信息,构建结构化信息。该实施方式保证了信息来源的多样性,使得生成的结构化信息所呈现的内容特征丰富且减少了冗余信息。
-
-
-
-
-
-
-
-
-