网页内容的处理方法和装置

    公开(公告)号:CN106446072B

    公开(公告)日:2019-10-18

    申请号:CN201610807127.3

    申请日:2016-09-07

    Abstract: 本发明实施例公开了一种网页内容的处理方法和装置。所述方法包括:读取与待处理网页对应的HTML结构正文数据;以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。本发明实施例的技术方案在识别出网页正文各段落中包括的标题以及段落正文,并将其整理归纳到一起生成标题文本对后,可以实现使用识别出的标题文本对中的标题来进一步描述网页内容,扩充网页内容的描述信息的技术效果,极大的简化了网页的分析过程,优化了现有的网页内容的处理技术,满足了人们日益增长的个性化、便捷化的网页内容的处理需求。

    用于生成结构化信息的方法和装置

    公开(公告)号:CN107391675B

    公开(公告)日:2021-03-09

    申请号:CN201710602034.1

    申请日:2017-07-21

    Abstract: 本申请实施例公开了用于生成结构化信息的方法和装置。方法的一具体实施方式包括:抓取预定领域的企业网站的所有页面内容;根据页面内容的特征,将页面内容分类至预先构建的企业信息的类别以及其它类别,得到分类页面;将分类页面分为内容页面和表单页面,并将内容页面和表单页面作为标签,标记分类页面;对标记后的分类页面进行以下至少一项抽取,得到抽取的信息:正文块抽取、正文内容结构化抽取、图文块抽取、列表块抽取和预定位置内容结构化;根据抽取的信息,构建结构化信息。该实施方式保证了信息来源的多样性,使得生成的结构化信息所呈现的内容特征丰富且减少了冗余信息。

    文本核心词识别方法和装置

    公开(公告)号:CN108334489B

    公开(公告)日:2021-05-14

    申请号:CN201710044590.1

    申请日:2017-01-19

    Abstract: 本申请公开了一种文本核心词识别方法和装置,其中,该方法包括:根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及利用所述文本核心词识别模型,识别目标文本的核心词。应用本申请,可通过多层次优化训练样本,提高文本核心词识别模型的识别准确率,以此提高抽取的核心词的准确度。

    文本核心词识别方法和装置

    公开(公告)号:CN108334489A

    公开(公告)日:2018-07-27

    申请号:CN201710044590.1

    申请日:2017-01-19

    Abstract: 本申请公开了一种文本核心词识别方法和装置,其中,该方法包括:根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及利用所述文本核心词识别模型,识别目标文本的核心词。应用本申请,可通过多层次优化训练样本,提高文本核心词识别模型的识别准确率,以此提高抽取的核心词的准确度。

    用于扩展查询式的方法和装置

    公开(公告)号:CN107609152A

    公开(公告)日:2018-01-19

    申请号:CN201710867794.5

    申请日:2017-09-22

    Abstract: 本申请公开了用于扩展查询式的方法和装置。该方法的一具体实施方式包括:基于与目标查询式关联的图片点击日志计算目标查询式的图片点击特征向量;基于目标查询式的图片点击特征向量,在预设的查询式集合中查找目标查询式的相似查询式,得到目标查询式的候选扩展查询式集合;将目标查询式和各候选扩展查询式与知识图谱中的实体词和限定词匹配,以提取出目标查询式和各候选扩展查询式的实体词和限定词;结合知识图谱对目标查询式和各候选扩展查询式的实体词和限定词进行扩展;对目标查询式和各候选扩展查询式的实体词和限定词的扩展结果进行匹配,以从候选扩展查询式集合中确定出目标查询式的扩展查询式。该实施方式提升了扩展查询式的丰富性。

    网页内容的处理方法和装置

    公开(公告)号:CN106446072A

    公开(公告)日:2017-02-22

    申请号:CN201610807127.3

    申请日:2016-09-07

    Abstract: 本发明实施例公开了一种网页内容的处理方法和装置。所述方法包括:读取与待处理网页对应的HTML结构正文数据;以段落为单位,对所述HTML结构正文数据进行结构划分,生成段落列表;根据所述段落列表中各段落中具有标题属性的内容,将所述段落列表中的各段落转化为标题文本对。本发明实施例的技术方案在识别出网页正文各段落中包括的标题以及段落正文,并将其整理归纳到一起生成标题文本对后,可以实现使用识别出的标题文本对中的标题来进一步描述网页内容,扩充网页内容的描述信息的技术效果,极大的简化了网页的分析过程,优化了现有的网页内容的处理技术,满足了人们日益增长的个性化、便捷化的网页内容的处理需求。

    用于抽取网页图文块的方法和装置

    公开(公告)号:CN107590288A

    公开(公告)日:2018-01-16

    申请号:CN201710941523.X

    申请日:2017-10-11

    Abstract: 本申请公开了用于抽取网页图文块的方法和装置。该方法的一具体实施方式包括:从待处理网页的文档对象模型中提取出图片节点;基于预设的过滤规则对图片节点进行过滤,得到候选图片节点;对每一个候选图片节点,在预设的最大遍历深度范围内依次向候选图片节点的祖先节点遍历,直到遍历至带有文本的祖先节点,作为候选图片节点对应的候选图文块,并生成候选图文块的路径信息;基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇;对每个图文块簇,基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点,基于共同祖先节点确定图文块簇的路径信息。该实施方式提升了网页图文块的抽取效率。

    用于生成结构化信息的方法和装置

    公开(公告)号:CN107391675A

    公开(公告)日:2017-11-24

    申请号:CN201710602034.1

    申请日:2017-07-21

    Abstract: 本申请实施例公开了用于生成结构化信息的方法和装置。方法的一具体实施方式包括:抓取预定领域的企业网站的所有页面内容;根据页面内容的特征,将页面内容分类至预先构建的企业信息的类别以及其它类别,得到分类页面;将分类页面分为内容页面和表单页面,并将内容页面和表单页面作为标签,标记分类页面;对标记后的分类页面进行以下至少一项抽取,得到抽取的信息:正文块抽取、正文内容结构化抽取、图文块抽取、列表块抽取和预定位置内容结构化;根据抽取的信息,构建结构化信息。该实施方式保证了信息来源的多样性,使得生成的结构化信息所呈现的内容特征丰富且减少了冗余信息。

Patent Agency Ranking