基于目录的电子文本文章分割方法及系统
摘要:
本发明提供一种基于目录的电子文本文章分割方法及系统,涉及文章分割技术领域。本发明首先基于关键字和/或格式将电子文本分割为目录部分和内容部分;然后对目录部分和内容部分进行相似度匹配;最后基于匹配结果进行电子文本文章分割。本发明结合了电子文本文章头部的目录,利用目录与后续正文之间具有关联关系的特点进行相似度匹配,且以段落为基本单元,能够更好提取出语义段落的边界,有效提高了电子文本文章分割的准确度。
0/0