基于计算机视觉的表格结构重建与文字提取方法和系统

    公开(公告)号:CN114004204B

    公开(公告)日:2024-09-13

    申请号:CN202111263283.5

    申请日:2021-10-28

    Abstract: 本发明提供了一种基于计算机视觉的表格结构重建与文字提取方法和系统,包括:步骤1:通过神经网络在PDF文档中识别并定位表格,得到表格所在的外框区域;步骤2:对PDF文档中的文字层进行解析,获取PDF文档中的文本间距;步骤3:根据框定的表格区域和本文间距,通过计算机视觉在表格区域内重建表格内框线结构;步骤4:根据表格内框线结构,从PDF文档中同位置处抽取文本信息;步骤5:根据表格内框线结构和对应文本信息,生成可编辑表格文件。本发明通过神经网络进行表格外框的识别,可以不通过人为给定表格外框区域,从而可以自动提取PDF文档中的所有表格,能够在无人监督的情况下批量提取大量PDF数据中的表格。

    基于光学字符识别的地理图片位置信息识别方法及系统

    公开(公告)号:CN113609324B

    公开(公告)日:2024-07-09

    申请号:CN202110913963.0

    申请日:2021-08-10

    Abstract: 本发明提供了一种基于光学字符识别的地理图片位置信息识别方法及系统,包括:从地学文献中抽取插图;对抽取的插图预处理,进而对图片光学字符识别,根据光学字符识别的结果对图片筛选出包含地理位置信息的图片;对包含地理位置信息的图片的光学字符识别的结果数据清洗,把含有经纬度信息的文本规格化,构建经纬度关系矩阵,判断出图片包含的经纬度位置信息;标注出图片中识别出的经线和纬线,在前端实时展现出来,支持根据反馈实时调整识别结果。本发明使用OCR技术,构建了经纬度关系矩阵,以较高的准确性实现了地学文献中地理图片位置信息的识别与抽取,使得地学的研究人员可以更为方便地检索和标记文献,并且支持交互来校正识别结果。

    基于知识图谱推理的地学数据集问答方法及系统

    公开(公告)号:CN116955558A

    公开(公告)日:2023-10-27

    申请号:CN202310893387.7

    申请日:2023-07-19

    Abstract: 本发明提供了一种基于知识图谱推理的地学数据集问答方法及系统,包括:根据地学数据集信息构建地学知识图谱;围绕地学数据集问句的关键意图,训练命名实体识别模型进行问句语义理解与信息抽取;融合文本信息与时空信息对地理实体进行实体对齐;基于知识图谱的实体关系结构,开展知识图谱嵌入,捕获跨实体的潜在关系与全局信息,实现从地学显式数据到深层知识的知识推理;融合对齐结果与推理结果进行多域检索,得到数据集答案。本发明构建了全新的知识图谱智能问答系统,相比于现有问答系统可以提高答案查全性,同时具备知识推理能力,能够通过显式地学数据挖掘隐式内在关联,能够帮助地学专家快速准确地寻找目标数据集。

    基于学术知识图谱的查询软件系统的构建方法及系统

    公开(公告)号:CN115757824A

    公开(公告)日:2023-03-07

    申请号:CN202211411474.6

    申请日:2022-11-11

    Abstract: 本发明提供了一种基于学术知识图谱的查询软件系统的构建方法及系统,包括如下步骤:设计RDF数据库的schema;根据设计好的schema,从数据库导出相应数据,存入RDF数据库Virtuoso中;设计文档数据库的schema;根据设计好的schema,从数据库导出论文的相关文档数据以及部分元信息,存入文档数据库ElasticSearch中;根据上述两个数据库互相配合提供的查询能力,构建后端查询模块;根据后端提供的接口,在前端完成相关功能的可视化展现。本发明显著降低了软件的开发成本及开发周期,系统架构简单明晰,使用过程快捷方便,适用范围较为广泛,可以为学术知识图谱的上层应用开发提供有效途径。

    多语言BERT序列标注模型的压缩方法及系统

    公开(公告)号:CN112613273B

    公开(公告)日:2022-09-23

    申请号:CN202011490078.8

    申请日:2020-12-16

    Abstract: 本发明提供了多语言BERT序列标注模型的压缩方法及系统,涉及BERT类模型的知识蒸馏技术领域,该方法包括:步骤1:基于Wordpiece算法从多语语料中抽取词表;步骤2:对多/单语言BERT教师模型、多语言BERT学生模型进行预训练;步骤3:基于人工标注的下游任务数据对多/单语言BERT教师模型进行微调;步骤4:利用多/单语言BERT教师模型对预训练后的多语言BERT学生模型进行残差知识蒸馏;步骤5:基于人工标注的下游任务数据对蒸馏后的多语言BERT学生模型进行微调。本发明通过残差学习和多对一的知识蒸馏方式,提高了学生模型的准确率和泛化程度,降低了多语言环境下BERT类序列标注模型部署所需的硬件资源。

    基于LEAM模型的机构命名实体归一化方法和系统

    公开(公告)号:CN112215007B

    公开(公告)日:2022-09-23

    申请号:CN202011141040.X

    申请日:2020-10-22

    Abstract: 本发明提供了一种基于LEAM模型的机构命名实体归一化方法和系统,包括:步骤S1:通过预设统计规则对所有的学术机构信息数据进行筛选,去除不符合预设条件的数据;步骤S2:在筛选过的数据中,根据正则表达式去除数据中存在的噪音;步骤S3:将去噪的数据按照类别和预设比例分为训练集、验证集和测试集;步骤S4:将训练集和验证集输入LEAM模型,训练出用于机构命名实体归一化的模型;步骤S5:将测试集输入训练好的模型中,测试模型效果并进行微调。通过本发明可以对每一个学术机构的论文发表数进行统计,从而可以更科学,更直观的对某个学术机构的学术能力进行判别。

    机构命名实体归一化方法和系统

    公开(公告)号:CN112215006B

    公开(公告)日:2022-08-09

    申请号:CN202011141016.6

    申请日:2020-10-22

    Abstract: 本发明提供了一种机构命名实体归一化方法和系统,该方法包括:对学术机构信息数据进行筛选,去除错误数据后,得到预处理数据;对所述预处理数据进行去噪处理,得到机构命名实体归一化数据;通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别,输出判别结果,以得到机构命名实体归一化后的标准名称;根据所述标准名称,统计对应机构的论文数据。从而可以对每一个学术机构的论文数据进行统计,使得对学术机构的学术能力进行更加科学、直观地判别。

    基于感染图卷积网络的源识别方法及系统

    公开(公告)号:CN113469261A

    公开(公告)日:2021-10-01

    申请号:CN202110786345.4

    申请日:2021-07-12

    Abstract: 本发明提供了一种基于感染图卷积网络的源识别方法及系统,涉及网络探索式搜索技术领域,该方法包括:步骤S1:输入经过对称归一化的拉普拉斯矩阵和各个节点的特征向量V;步骤S2:基于图神经网络的特征优化层,基于通过向量化的特征输入对图神经网络进行迭代更新,对特征向量V进行优化;步骤S3:基于多个IGCN网络层根据不同的类型节点选择分配不同的权重进行特征优化,更新特征向量V;步骤S4:根据更新的特征向量V,输入到前反馈神经网络中,输出学习得到的分类概率;步骤S5:将源识别问题定义为图分类问题,使用交叉熵损失函数进行反向传播,学习输入节点的特征向量V。本发明能够在模型无关的情况下提高对源的预测准确性。

    基于规则推理和句法模式的图嵌入方法及系统

    公开(公告)号:CN110245238B

    公开(公告)日:2021-08-17

    申请号:CN201910314357.X

    申请日:2019-04-18

    Abstract: 本发明提供一种基于规则推理和句法图式的图嵌入方法及系统,步骤1使用条件随机场算法‑双向长短期记忆网络从原始问题中提取实体/值;步骤2基于第一步中的实体/值信息和特定领域知识图的图式,采用传统的规则推理方法检测查询子图的可能结构;步骤3使用第一步的类标签结果来替换原问题中的实体/值;步骤4根据第二步结构检测步骤和第三步链接/属性提取步骤的结果,使用传统的规则推断方法对所有原始问题形成查询子图;步骤5对于不能形成连接查询子图的原始问题,构建句型示意图,使用Node2Vec学习表示句子模式图,利用双向长短期记忆网络的输出来模拟原始问题中隐藏的链接。使得用户可以快速地将自然语言转化为数据库查询语句。

Patent Agency Ranking