一种基于最小信息量的汉语快速分词系统及方法

    公开(公告)号:CN106484677B

    公开(公告)日:2019-02-12

    申请号:CN201610874929.6

    申请日:2016-09-30

    Abstract: 本发明涉及一种基于最小信息量的汉语快速分词系统及方法,包括备选词确定、歧义区域识别、歧义分词消除、结果统计四个模块。本发明无需提前获取词语的先验统计信息,并且能够在仅有词库的条件下实现高效分词。该方法适用于各种中文文本的分词处理,在搜索引擎、文本信息提取、文本语义分析、知识图谱等的中文信息处理领域有着重要的应用价值。

    一种基于文本-标签密度的网页核心内容提取方法

    公开(公告)号:CN106055667B

    公开(公告)日:2019-06-04

    申请号:CN201610390441.6

    申请日:2016-06-06

    Inventor: 蒋东辰 闫艺鑫

    Abstract: 本发明涉及一种基于文本‑标签密度的网页核心内容提取方法,其包括:网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素,并删除原始网页文本中与网页核心内容无关的标签,从而得到待处理文本;网页核心内容范围预估阶段,确定网页核心内容的大致范围;核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置;删除剩余标签阶段取出核心内容部分,并删除多余标签,获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构,也不限定网页的主题和内容,处理过程具有线性复杂度,能够适用于各种网页核心内容提取、网页去噪等技术应用。

    一种基于文本‑标签密度的网页核心内容提取方法

    公开(公告)号:CN106055667A

    公开(公告)日:2016-10-26

    申请号:CN201610390441.6

    申请日:2016-06-06

    Inventor: 蒋东辰 闫艺鑫

    CPC classification number: G06F16/9577 G06F16/95

    Abstract: 本发明涉及一种基于文本‑标签密度的网页核心内容提取方法,其包括:网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素,并删除原始网页文本中与网页核心内容无关的标签,从而得到待处理文本;网页核心内容范围预估阶段,确定网页核心内容的大致范围;核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置;删除剩余标签阶段取出核心内容部分,并删除多余标签,获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构,也不限定网页的主题和内容,处理过程具有线性复杂度,能够适用于各种网页核心内容提取、网页去噪等技术应用。

Patent Agency Ranking