Patent search ap:("北京林业大学") AND inv:"闫艺鑫" Page 1

1.

发明授权
一种基于最小信息量的汉语快速分词系统及方法有权

公开(公告)号：CN106484677B

公开(公告)日：2019-02-12

申请号：CN201610874929.6

申请日：2016-09-30

Applicant: 北京林业大学

Inventor： 蒋东辰 , 闫艺鑫 , 牛颖

IPC: G06F17/27 , G06F16/2458

Abstract: 本发明涉及一种基于最小信息量的汉语快速分词系统及方法，包括备选词确定、歧义区域识别、歧义分词消除、结果统计四个模块。本发明无需提前获取词语的先验统计信息，并且能够在仅有词库的条件下实现高效分词。该方法适用于各种中文文本的分词处理，在搜索引擎、文本信息提取、文本语义分析、知识图谱等的中文信息处理领域有着重要的应用价值。

2.

发明授权
一种基于文本-标签密度的网页核心内容提取方法有权

公开(公告)号：CN106055667B

公开(公告)日：2019-06-04

申请号：CN201610390441.6

申请日：2016-06-06

Applicant: 北京林业大学

Inventor： 蒋东辰 , 闫艺鑫

IPC: G06F16/958

Abstract: 本发明涉及一种基于文本‑标签密度的网页核心内容提取方法，其包括：网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素，并删除原始网页文本中与网页核心内容无关的标签，从而得到待处理文本；网页核心内容范围预估阶段，确定网页核心内容的大致范围；核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置；删除剩余标签阶段取出核心内容部分，并删除多余标签，获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构，也不限定网页的主题和内容，处理过程具有线性复杂度，能够适用于各种网页核心内容提取、网页去噪等技术应用。

3.

发明公开
一种基于文本‑标签密度的网页核心内容提取方法有权

公开(公告)号：CN106055667A

公开(公告)日：2016-10-26

申请号：CN201610390441.6

申请日：2016-06-06

Applicant: 北京林业大学

Inventor： 蒋东辰 , 闫艺鑫

IPC: G06F17/30

CPC classification number: G06F16/9577 , G06F16/95

Abstract: 本发明涉及一种基于文本‑标签密度的网页核心内容提取方法，其包括：网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素，并删除原始网页文本中与网页核心内容无关的标签，从而得到待处理文本；网页核心内容范围预估阶段，确定网页核心内容的大致范围；核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置；删除剩余标签阶段取出核心内容部分，并删除多余标签，获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构，也不限定网页的主题和内容，处理过程具有线性复杂度，能够适用于各种网页核心内容提取、网页去噪等技术应用。

4.

发明公开
一种基于最小信息量的汉语快速分词系统及方法有权

公开(公告)号：CN106484677A

公开(公告)日：2017-03-08

申请号：CN201610874929.6

申请日：2016-09-30

Applicant: 北京林业大学

Inventor： 蒋东辰 , 闫艺鑫 , 牛颖

IPC: G06F17/27 , G06F17/30

CPC classification number: G06F17/277 , G06F17/2795 , G06F17/30536

Abstract: 本发明涉及一种基于最小信息量的汉语快速分词系统及方法，包括备选词确定、歧义区域识别、歧义分词消除、结果统计四个模块。本发明无需提前获取词语的先验统计信息，并且能够在仅有词库的条件下实现高效分词。该方法适用于各种中文文本的分词处理，在搜索引擎、文本信息提取、文本语义分析、知识图谱等的中文信息处理领域有着重要的应用价值。

Patent Agency Ranking