-
公开(公告)号:CN117058704B
公开(公告)日:2024-01-05
申请号:CN202311190777.4
申请日:2023-09-15
Applicant: 之江实验室
IPC: G06V30/42 , G06V30/413 , G06V30/416 , G06V30/148
Abstract: 本发明公开了一种基于视觉和文本特征的教材内容及结构的提取方法和装置,包括:读取PDF教材并将每个页面转成图片;对图片进行灰度转换、膨胀、腐蚀操作得到预处理后图片;基于空白区域对预处理后图片进行区域分割以得到多个区域块;采用OCR识别区域块中文本字符,并建立文本字符与区域块的对应关系;对区域块进行页眉页脚识别,并去除页眉页脚对应的区域块;对剩余区域块基于视觉规则和文本规则共同进行区域类型判断,其中,区域类型包括标题、正文以及自定义类型;根据区域类型和文本字符与区域块的对应关系建立取PDF教材的结构关系。该方法和装置能够实现结构化信息提取,适用于包含图片格式等各种类型的PDF文件。
-
公开(公告)号:CN116912867B
公开(公告)日:2023-12-29
申请号:CN202311175495.7
申请日:2023-09-13
Applicant: 之江实验室
IPC: G06V30/413 , G06V30/19 , G06V30/18 , G06V20/70
Abstract: 本发明公开了一种结合自动标注和召回补全的教材结构提取方法和装置,将教材PDF转换为图片,并通过高精度OCR识别出图片中的每个区域的文本信息和位置信息,再结合规则模型和聚类来构建样本,并利用样本训练与区域类型对应的多种分类模型来预测区域类型未知的区域类型,最后自动召回补全缺失的部分并建立整本教材的内容及结构关系,这样能够顾实现快速准确地从教材中快速准备地提取出标题和正文,并建立相应的结构关系。
-
公开(公告)号:CN117058704A
公开(公告)日:2023-11-14
申请号:CN202311190777.4
申请日:2023-09-15
Applicant: 之江实验室
IPC: G06V30/42 , G06V30/413 , G06V30/416 , G06V30/148
Abstract: 本发明公开了一种基于视觉和文本特征的教材内容及结构的提取方法和装置,包括:读取PDF教材并将每个页面转成图片;对图片进行灰度转换、膨胀、腐蚀操作得到预处理后图片;基于空白区域对预处理后图片进行区域分割以得到多个区域块;采用OCR识别区域块中文本字符,并建立文本字符与区域块的对应关系;对区域块进行页眉页脚识别,并去除页眉页脚对应的区域块;对剩余区域块基于视觉规则和文本规则共同进行区域类型判断,其中,区域类型包括标题、正文以及自定义类型;根据区域类型和文本字符与区域块的对应关系建立取PDF教材的结构关系。该方法和装置能够实现结构化信息提取,适用于包含图片格式等各种类型的PDF文件。
-
公开(公告)号:CN116912867A
公开(公告)日:2023-10-20
申请号:CN202311175495.7
申请日:2023-09-13
Applicant: 之江实验室
IPC: G06V30/413 , G06V30/19 , G06V30/18 , G06V20/70
Abstract: 本发明公开了一种结合自动标注和召回补全的教材结构提取方法和装置,将教材PDF转换为图片,并通过高精度OCR识别出图片中的每个区域的文本信息和位置信息,再结合规则模型和聚类来构建样本,并利用样本训练与区域类型对应的多种分类模型来预测区域类型未知的区域类型,最后自动召回补全缺失的部分并建立整本教材的内容及结构关系,这样能够顾实现快速准确地从教材中快速准备地提取出标题和正文,并建立相应的结构关系。
-
公开(公告)号:CN116521886A
公开(公告)日:2023-08-01
申请号:CN202310135812.6
申请日:2023-02-20
Applicant: 之江实验室
Abstract: 本发明公开了一种基于深度学习的教育领域知识图谱构建方法和装置,该方法首先获取教育领域的多源数据;再对多源数据进行结构化提取,得到关键词和知识点;之后根据关键词之间的前后置关系,构成关键词骨架;接着应用关键词骨架对知识点进行前后置关联关系的提取;应用关键词骨架和知识点前后置关系推导得出知识点框架;最后利用知识点框架,使用无监督方式和相似度计算方式进行知识融合,构建学科知识图谱。本发明从总海量的教学资源数据中,提取出知识点及关联关系,构建教学资源知识图谱,从而赋能教学领域的智能化应用,为人工智能与教育的结合提供基础性支持。
-
-
-
-