-
公开(公告)号:CN117894029A
公开(公告)日:2024-04-16
申请号:CN202311863158.7
申请日:2023-12-29
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06V30/412 , G06V30/414 , G06V30/19
Abstract: 本发明公开了一种文档表格自动检测方法,首先根据输入文件类别调用PDF解析器或者OCR模块从文档页中抽取文本块及其属性;其次对文本块进行预处理,结合其位置信息获得特征向量;将文本块特征向量输入二维文本位置编码器,获得蕴含全局信息的文本表示向量;利用文本表示向量对文本块进行分类,输出对应的表格边界类别;通过启发式算法,对分类为表格内文本的文本块进行聚合,生成候选表格区域;最后利用表格边界类别,对候选表格区域进行进一步切分,输出最终表格区域边界。相对于现有技术,本发明能准确、稳定地检测出文档中表格所在位置。
-
公开(公告)号:CN116580411B
公开(公告)日:2023-10-20
申请号:CN202310843671.3
申请日:2023-07-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种基于指令的文档图像处理方法及系统,所述方法包括:获取文档图像,并将所述文档图像输入至文档图像编码模型获得文档图像视觉特征;获取文档处理操作指令,并将所述文档处理操作指令输入至文档处理指令解析模型得到简单操作指令序列;将所述简单操作指令序列输入至文档处理指令编码模型,得到文档指令语义特征;将所述文档图像视觉特征和所述文档指令语义特征输入至文档多模态大模型,得到图像变换操作序列和模态输出内容;获取文档处理修订指令,基于所述文档处理修订指令完成所述文档图像处理。本发明通过深入理解文档格式和内容,有效与用户进行交互,通过解析用户指令,准确完成定制化文档操作,并根据用户反馈进行迭代修订。
-
公开(公告)号:CN116580411A
公开(公告)日:2023-08-11
申请号:CN202310843671.3
申请日:2023-07-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种基于指令的文档图像处理方法及系统,所述方法包括:获取文档图像,并将所述文档图像输入至文档图像编码模型获得文档图像视觉特征;获取文档处理操作指令,并将所述文档处理操作指令输入至文档处理指令解析模型得到简单操作指令序列;将所述简单操作指令序列输入至文档处理指令编码模型,得到文档指令语义特征;将所述文档图像视觉特征和所述文档指令语义特征输入至文档多模态大模型,得到图像变换操作序列和模态输出内容;获取文档处理修订指令,基于所述文档处理修订指令完成所述文档图像处理。本发明通过深入理解文档格式和内容,有效与用户进行交互,通过解析用户指令,准确完成定制化文档操作,并根据用户反馈进行迭代修订。
-
-