发明公开
- 专利标题: 一种文本信息自动提取方法
- 专利标题(英): A method for automatically extracting text information
-
申请号: CN201810975598.4申请日: 2018-08-24
-
公开(公告)号: CN109145260A公开(公告)日: 2019-01-04
- 发明人: 黄海友 , 袁兆麟 , 马博渊 , 胡金龙 , 魏晓燕 , 刘婷
- 申请人: 北京科技大学
- 申请人地址: 北京市海淀区学院路30号
- 专利权人: 北京科技大学
- 当前专利权人: 北京科技大学
- 当前专利权人地址: 北京市海淀区学院路30号
- 代理机构: 北京市广友专利事务所有限责任公司
- 代理商 张仲波
- 主分类号: G06F17/21
- IPC分类号: G06F17/21 ; G06F17/27 ; G06F16/31
摘要:
本发明提供一种文本信息自动提取方法,能够不断提高标记内容和标签自动提取的准确性。所述方法包括:获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签;基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,以实现标记内容和标签的自动提取。本发明适用于文本信息自动提取操作。
公开/授权文献
- CN109145260B 一种文本信息自动提取方法 公开/授权日:2020-04-24