-
公开(公告)号:CN117058704B
公开(公告)日:2024-01-05
申请号:CN202311190777.4
申请日:2023-09-15
Applicant: 之江实验室
IPC: G06V30/42 , G06V30/413 , G06V30/416 , G06V30/148
Abstract: 本发明公开了一种基于视觉和文本特征的教材内容及结构的提取方法和装置,包括:读取PDF教材并将每个页面转成图片;对图片进行灰度转换、膨胀、腐蚀操作得到预处理后图片;基于空白区域对预处理后图片进行区域分割以得到多个区域块;采用OCR识别区域块中文本字符,并建立文本字符与区域块的对应关系;对区域块进行页眉页脚识别,并去除页眉页脚对应的区域块;对剩余区域块基于视觉规则和文本规则共同进行区域类型判断,其中,区域类型包括标题、正文以及自定义类型;根据区域类型和文本字符与区域块的对应关系建立取PDF教材的结构关系。该方法和装置能够实现结构化信息提取,适用于包含图片格式等各种类型的PDF文件。
-
公开(公告)号:CN116089414B
公开(公告)日:2023-09-08
申请号:CN202310372120.3
申请日:2023-04-10
Applicant: 之江实验室
IPC: G06F16/215 , G06F16/22 , G06F16/27
Abstract: 本发明公开了一种基于海量数据场景的时序数据库写入性能优化方法及装置,该方法包括:首先基于Apache Calcite将数据库读写请求对应的读写线程池分离,并建立独立的写任务线程池;然后通过哈希策略对写任务线程池中的写任务进行分片,并根据负载值对分片任务进行调度,以将写任务的数据写入集群中的节点;最后根据节点的写任务获取写入请求,为该写入请求分配内存数组,并基于海量时间线对写任务所需的内存进行动态分配,对写任务的数据进行刷盘。本发明能够缓解时序数据库写多读少场景下写线程被读线程阻塞的情形,本发明具有更好的集群负载均衡效果,增强了任务的并发度,有利于减少海量数据写入时的刷盘频率,提升写入效率。
-
公开(公告)号:CN116012202A
公开(公告)日:2023-04-25
申请号:CN202211489023.4
申请日:2022-11-25
Applicant: 之江实验室 , 浙江杭钢职业教育集团有限公司
Abstract: 本发明涉及一种自适应的主动式信息交互教育方法,根据学习者的环境和注意力的情况,自适应地转变播放方式,如将视频通过内容识别和自动语音生成转变成音频,或者对音频自动生成字幕和配图生成视频。具体的,该装置可以根据声音信号、振动信号、加速度传感器、感光传感器,进行环境干扰特征的识别,判别环境嘈杂程度、声音场景、环境光线条件、设备晃动状态;同时,该装置可以辨识学习者的注意力状态,自动推送合适的内容形式,以最大化注意力集中程度。并且,该装置可以通过对视频和图像内容识别,自动生成描述视频和图像内容的文字,进一步合成音频播放;该装置也可以对音频内容识别,自动生成文字、配图,进行视觉呈现。
-
公开(公告)号:CN116228361A
公开(公告)日:2023-06-06
申请号:CN202310202883.3
申请日:2023-02-28
Applicant: 之江实验室
IPC: G06Q30/0601 , G06Q30/0203 , G06Q50/20 , G06F18/22
Abstract: 本申请涉及人工智能领域,特别是涉及一种基于特征匹配的课程推荐方法、装置、计算机设备和存储介质,所述方法包括:以正相关的课程特征样本和学生特征样本的匹配对作为训练样本,以各所述匹配对之间的匹配度作为输出,训练课程推荐模型;将目标学生的学生特征以及备选课程的课程特征输入所述课程推荐模型,输出所述目标学生与各所述备选课程的匹配度;基于各所述匹配度,确定所述目标学生的推荐课程。本发明能够为学生智能推荐合适的课程。
-
公开(公告)号:CN116089414A
公开(公告)日:2023-05-09
申请号:CN202310372120.3
申请日:2023-04-10
Applicant: 之江实验室
IPC: G06F16/215 , G06F16/22 , G06F16/27
Abstract: 本发明公开了一种基于海量数据场景的时序数据库写入性能优化方法及装置,该方法包括:首先基于Apache Calcite将数据库读写请求对应的读写线程池分离,并建立独立的写任务线程池;然后通过哈希策略对写任务线程池中的写任务进行分片,并根据负载值对分片任务进行调度,以将写任务的数据写入集群中的节点;最后根据节点的写任务获取写入请求,为该写入请求分配内存数组,并基于海量时间线对写任务所需的内存进行动态分配,对写任务的数据进行刷盘。本发明能够缓解时序数据库写多读少场景下写线程被读线程阻塞的情形,本发明具有更好的集群负载均衡效果,增强了任务的并发度,有利于减少海量数据写入时的刷盘频率,提升写入效率。
-
公开(公告)号:CN116912867B
公开(公告)日:2023-12-29
申请号:CN202311175495.7
申请日:2023-09-13
Applicant: 之江实验室
IPC: G06V30/413 , G06V30/19 , G06V30/18 , G06V20/70
Abstract: 本发明公开了一种结合自动标注和召回补全的教材结构提取方法和装置,将教材PDF转换为图片,并通过高精度OCR识别出图片中的每个区域的文本信息和位置信息,再结合规则模型和聚类来构建样本,并利用样本训练与区域类型对应的多种分类模型来预测区域类型未知的区域类型,最后自动召回补全缺失的部分并建立整本教材的内容及结构关系,这样能够顾实现快速准确地从教材中快速准备地提取出标题和正文,并建立相应的结构关系。
-
公开(公告)号:CN117058704A
公开(公告)日:2023-11-14
申请号:CN202311190777.4
申请日:2023-09-15
Applicant: 之江实验室
IPC: G06V30/42 , G06V30/413 , G06V30/416 , G06V30/148
Abstract: 本发明公开了一种基于视觉和文本特征的教材内容及结构的提取方法和装置,包括:读取PDF教材并将每个页面转成图片;对图片进行灰度转换、膨胀、腐蚀操作得到预处理后图片;基于空白区域对预处理后图片进行区域分割以得到多个区域块;采用OCR识别区域块中文本字符,并建立文本字符与区域块的对应关系;对区域块进行页眉页脚识别,并去除页眉页脚对应的区域块;对剩余区域块基于视觉规则和文本规则共同进行区域类型判断,其中,区域类型包括标题、正文以及自定义类型;根据区域类型和文本字符与区域块的对应关系建立取PDF教材的结构关系。该方法和装置能够实现结构化信息提取,适用于包含图片格式等各种类型的PDF文件。
-
公开(公告)号:CN116912867A
公开(公告)日:2023-10-20
申请号:CN202311175495.7
申请日:2023-09-13
Applicant: 之江实验室
IPC: G06V30/413 , G06V30/19 , G06V30/18 , G06V20/70
Abstract: 本发明公开了一种结合自动标注和召回补全的教材结构提取方法和装置,将教材PDF转换为图片,并通过高精度OCR识别出图片中的每个区域的文本信息和位置信息,再结合规则模型和聚类来构建样本,并利用样本训练与区域类型对应的多种分类模型来预测区域类型未知的区域类型,最后自动召回补全缺失的部分并建立整本教材的内容及结构关系,这样能够顾实现快速准确地从教材中快速准备地提取出标题和正文,并建立相应的结构关系。
-
-
-
-
-
-
-