- 专利标题: 结合自动标注和召回补全的教材结构提取方法和装置
-
申请号: CN202311175495.7申请日: 2023-09-13
-
公开(公告)号: CN116912867B公开(公告)日: 2023-12-29
- 发明人: 何贵甲 , 黄程韦 , 盖君芳 , 黄宝忠 , 刘俊聪
- 申请人: 之江实验室
- 申请人地址: 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 专利权人: 之江实验室
- 当前专利权人: 之江实验室
- 当前专利权人地址: 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 代理机构: 杭州天勤知识产权代理有限公司
- 代理商 曹兆霞
- 主分类号: G06V30/413
- IPC分类号: G06V30/413 ; G06V30/19 ; G06V30/18 ; G06V20/70
摘要:
本发明公开了一种结合自动标注和召回补全的教材结构提取方法和装置,将教材PDF转换为图片,并通过高精度OCR识别出图片中的每个区域的文本信息和位置信息,再结合规则模型和聚类来构建样本,并利用样本训练与区域类型对应的多种分类模型来预测区域类型未知的区域类型,最后自动召回补全缺失的部分并建立整本教材的内容及结构关系,这样能够顾实现快速准确地从教材中快速准备地提取出标题和正文,并建立相应的结构关系。
公开/授权文献
- CN116912867A 结合自动标注和召回补全的教材结构提取方法和装置 公开/授权日:2023-10-20