-
公开(公告)号:CN119131816A
公开(公告)日:2024-12-13
申请号:CN202411060030.1
申请日:2024-08-02
Applicant: 北京交通大学
IPC: G06V30/41 , G06V30/19 , G06V30/164 , G06V30/18 , G06V30/413 , G06V20/62 , G06F40/30 , G06F40/258 , G06F40/289 , G06V30/414
Abstract: 本发明涉及人工智能技术领域,且公开了一种基于人工智能的多模态文档解析系统,所述解析系统由图像预处理模块、多模态特征提取模块、自然语言处理模块、模态融合与解析模块和文档结构识别模块组成。本发明通过清晰化图像,去除噪声和模糊,使图像质量得到提升,使用掩模来分别提取文本、表格和图像区域,从而精准分离不同的文档内容,将视觉特征与提取的区域信息组合在一起,生成一个综合的特征向量,这样更全面地理解文档的内容,对从图像中提取的文本进行解析,进行语义分析和关键词提取,从而理解文本内容,从解析后的文本中提取出关键词,帮助识别文档的主要主题和关键点,达到了多模态解析文档使解析的结果更精准的有益效果。