一种文本信息自动提取方法
摘要:
本发明提供一种文本信息自动提取方法,能够不断提高标记内容和标签自动提取的准确性。所述方法包括:获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签;基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,以实现标记内容和标签的自动提取。本发明适用于文本信息自动提取操作。
公开/授权文献
0/0