发明公开
- 专利标题: 基于目录的电子文本文章分割方法及系统
-
申请号: CN202310332503.8申请日: 2023-03-30
-
公开(公告)号: CN116542236A公开(公告)日: 2023-08-04
- 发明人: 陈艺 , 王安宁 , 汪玉 , 王港琛 , 赵龙 , 唐莫默 , 秦琪 , 贾骏童 , 李宾宾 , 丁洁 , 包佳佳 , 杨瑞雪 , 范明豪 , 马亚彬 , 翟玥 , 杨孝忠 , 金义 , 尹睿涵 , 马路遥 , 陈清兵 , 陈庆涛 , 黄杰 , 刘鑫 , 刘耕云 , 吕鹏飞
- 申请人: 国网安徽省电力有限公司电力科学研究院 , 合肥工业大学
- 申请人地址: 安徽省合肥市经济技术开发区紫云路299号;
- 专利权人: 国网安徽省电力有限公司电力科学研究院,合肥工业大学
- 当前专利权人: 国网安徽省电力有限公司电力科学研究院,合肥工业大学
- 当前专利权人地址: 安徽省合肥市经济技术开发区紫云路299号;
- 代理机构: 北京久诚知识产权代理事务所
- 代理商 余罡
- 主分类号: G06F40/205
- IPC分类号: G06F40/205 ; G06F40/258 ; G06F40/279 ; G06F40/30
摘要:
本发明提供一种基于目录的电子文本文章分割方法及系统,涉及文章分割技术领域。本发明首先基于关键字和/或格式将电子文本分割为目录部分和内容部分;然后对目录部分和内容部分进行相似度匹配;最后基于匹配结果进行电子文本文章分割。本发明结合了电子文本文章头部的目录,利用目录与后续正文之间具有关联关系的特点进行相似度匹配,且以段落为基本单元,能够更好提取出语义段落的边界,有效提高了电子文本文章分割的准确度。