-
公开(公告)号:CN113609906B
公开(公告)日:2024-06-21
申请号:CN202110736883.2
申请日:2021-06-30
Applicant: 南京信息工程大学
IPC: G06V30/413 , G06V30/19 , G06V10/82
Abstract: 本发明涉及一种面向文献的表格信息抽取方法,属于数据处理以及计算机视觉领域。该方法包括以下步骤:1:利用规则获取所有可能含表格的候选页面;2:将获取的页面转化为图片文件;3:采用深度学习方法,获取图片文件的特征;4:根据获取的图片文件的特征,对图片进行特征融合;获取融合后的特征;5:根据获取的特征融合后的特征,对表格的位置进行初步定位;6:针对获得的表格定位信息,根据表格元素的长宽关系,将横板表格旋转为竖版表格;7:根据获得的竖版表格,读取单元格字符流。本发明能自动对表格位置进行准确的定位,能够精确的从表格中读取表格的字符流。
-
公开(公告)号:CN114896968A
公开(公告)日:2022-08-12
申请号:CN202210649555.3
申请日:2022-06-10
Applicant: 南京信息工程大学
IPC: G06F40/279 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于自然语言处理的地质表头归并方法及装置,所述方法包括获取地质表头文本原始数据,对地质表头文本原始数据进行预处理;将所述预处理过的地质表头文本原始数据转化为包括词编号和词的词表,再利用所述词表将地质表头文本原始数据转化为词编号序列;将所述词编号序列输入预先建立的基于长短期记忆神经网络的表头归并模型,经过所述表头归并模型的嵌入层、LSTM层后输出特征向量;使用softmax对所述特征向量计算,得出地质表头文本所属标签类别的概率,输出表头文本的类别预测结果,本发明能够统筹地质表头文本数据集的局部和全局文本特征,具备良好的准确性和稳定性,有效提升地质表头文本类别预测的效果。
-
公开(公告)号:CN114005130A
公开(公告)日:2022-02-01
申请号:CN202111175439.4
申请日:2021-10-09
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于LSD线段检测的文档图像三角图检测方法,包括以下步骤:步骤1、对采集得到的文档图像进行高斯滤波降噪,得到低噪图像;步骤2、对低噪图像进行LSD线段检测,得到原始线段集合;步骤3、对原始线段集合进行处理,合并重叠和错误分段的线段,得到合并线段集合;步骤4、搜寻合并线段集合中符合预设条件的三角图线段组,对各三角图线段组中三条线段所在直线的交点处进行Harris角点检测,得到各三角图线段组对应的三角图角点组;步骤5、根据三角图线段组与三角图角点组中各线段与角点之间的相对位置,判断该三角图线段组所在处是否为三角图。本发明进一步降低误检率,准确检测处文档图像中的三角图。
-
公开(公告)号:CN115062596A
公开(公告)日:2022-09-16
申请号:CN202210637406.5
申请日:2022-06-07
Applicant: 南京信息工程大学
IPC: G06F40/186 , G06F40/30 , G06F40/284 , G06F40/242 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种气象专报的生成方法、装置、电子设备及存储介质,所述方法包括:确定数值预报模板,所述数值预报模板包括预留位置;获取原始气象数据,将所述原始气象数据与所述数值预报模板的预留位置进行匹配,得到目标数值预报;获取原始气象文档,对所述原始气象文档进行语义提取,得到目标气象评语;根据所述目标数值预报和所述目标气象评语,确定目标气象专报。应用本公开实施例提供的方法,实现了自动生成包括数值预报和气象评语的气象专报,节省了人力和时间且内容简明扼要,可以帮助人们更加直观、明确的了解到气象状况以便对后续工作做出精准规划。
-
公开(公告)号:CN113792152B
公开(公告)日:2023-07-04
申请号:CN202110968825.2
申请日:2021-08-23
Applicant: 南京信息工程大学
IPC: G06F16/36
Abstract: 本发明公开了一种三角图与知识图谱的融合方法,属于知识图谱的技术领域。其包括步骤1:利用马尔可夫图方法将含有三角图的沉积学PDFA文件转换为灰度图像;步骤2:重构砂岩三角图,根据三角图获取底边数据,计算每个三角图图形边缘值;步骤3:分析沉积学中各砂岩实体与砂岩实体间关系,去除同义砂岩实体名,构建沉积学领域砂岩知识图谱;步骤4:对砂岩内部成分划界,计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值;步骤5:构建三角图与知识图谱的链接关系,形成砂岩图谱三角图,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱,提供了适用于砂岩三角图分析数值工作的方法。
-
公开(公告)号:CN113468890B
公开(公告)日:2023-05-26
申请号:CN202110818775.X
申请日:2021-07-20
Applicant: 南京信息工程大学
IPC: G06F40/295 , G06F40/242 , G06N3/044
Abstract: 基于NLP信息萃取与词性规则的沉积学文献挖掘方法,步骤1:根据最低流量限制和期望下载时间预期值,对相关文件进行下载;步骤2:根据机器视觉,对文本内容进行识别;步骤3:分析文档上下文语段,获取语句文本中自定义多类实体关键词词典列表;步骤4:采用余弦相似度测量分析技术,根据关键词种类,对文本中相同词性关键词进行识别,生成非结构化多分类文本;步骤5:对分类实体分别进行多路匹配,记录实体标签属性,生成大样本训练数据集;步骤6:针对步骤5生成大样本数据集和步骤3需要识别文献文本,利用双向长短期记忆神经网络模型结合条件随机场进行实体识别,实现对所需实体的识别,筛选出文本中实体进行存储。
-
公开(公告)号:CN115712720A
公开(公告)日:2023-02-24
申请号:CN202210723816.1
申请日:2022-06-23
Applicant: 南京信息工程大学
IPC: G06F16/35 , G06F16/36 , G06F40/205 , G06F40/242 , G06F40/284 , G06F40/295 , G06F40/30 , G06Q50/26
Abstract: 本发明公开了一种基于知识图谱的降雨动态预警方法,属于知识图谱的技术领域和数据挖掘领域,其包括步骤1:通过动态实时多路下载有关区域降雨新闻数据;步骤2:根据步骤1的文本非结构化信息抽取城市地点信息,降雨信息时间等;步骤3:根据步骤2构建时‑空多维知识图谱,并实时去除冗余的降雨信息;步骤4:统计区域地势数据,通过聚类算法将区域地势数据进行动态分类;步骤5:根据步骤4的结果,对分类地区自动生成对应预警信息,标记具体位置并通知相关人员;通过该方法有利于提升整体的气象降雨数据关键词挖掘效率,减少人工标注所带来的时间成本,快速的为专家聚类出组合排列结果,对于降雨情况做出迅速反应。
-
公开(公告)号:CN114117061A
公开(公告)日:2022-03-01
申请号:CN202111255195.0
申请日:2021-10-27
Applicant: 南京信息工程大学
IPC: G06F16/36 , G06F16/35 , G06F40/242 , G06F40/295 , G06N3/04
Abstract: 本发明公开了一种基于数据挖掘和树状结构的河流相知识图谱反推方法,属于自然语言处理技术领域。该方法包括如下步骤:1、通过在河流相文献中运用命名体识别抽取实体并通过人工完善实体种类;2:根据步骤1的实体种类构建层级关系主要为岩性关系和结构关系;3:根据步骤1和步骤2构建专家领域河流相知识图谱;4:根据步骤3构建河流相树状结构节点,使得每个节点都存在于一个树状结构当中;5:根据步骤4,构建河流相反推方法,并通过专家输入单个实体或实体组合反推出河流相层级关系的组合比率并筛选出最佳的可能性。本发明适用于异构数据的信息获取和分析工作。
-
公开(公告)号:CN113792152A
公开(公告)日:2021-12-14
申请号:CN202110968825.2
申请日:2021-08-23
Applicant: 南京信息工程大学
IPC: G06F16/36
Abstract: 本发明公开了一种三角图与知识图谱的融合方法,属于知识图谱的技术领域。其包括步骤1:利用马尔可夫图方法将含有三角图的沉积学PDFA文件转换为灰度图像;步骤2:重构砂岩三角图,根据三角图获取底边数据,计算每个三角图图形边缘值;步骤3:分析沉积学中各砂岩实体与砂岩实体间关系,去除同义砂岩实体名,构建沉积学领域砂岩知识图谱;步骤4:对砂岩内部成分划界,计算各砂岩实体之间临界值,明确砂岩内各组成成分的含量范围值;步骤5:构建三角图与知识图谱的链接关系,形成砂岩图谱三角图,实现每次点击三角图内任一点时,获取到对应三角图各属性值,并产生对应砂岩实体知识图谱,提供了适用于砂岩三角图分析数值工作的方法。
-
公开(公告)号:CN114625885B
公开(公告)日:2024-10-18
申请号:CN202210224702.2
申请日:2022-03-07
Applicant: 南京信息工程大学
IPC: G06F16/36 , G06F16/35 , G06F40/295 , G06F40/216 , G06N3/0442 , G06N3/048 , G06N3/045 , G06N3/08
Abstract: 一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质,本发明所述方法在分析文档上下文语段,构造实体和关系后,通过聚类算法,将松散的子类实体,与父类实体相互关联,形成紧密的查询结构;在文本实体识别过程中,采用构建触发器的方法进行触发要素的选择,提高文字识别准确率,能够更快速、便捷地寻找到识别目标;在数据集构建中,采取了多路匹配的方式,有利于提升整体的数据集构建效率,减少人工标注所带来的时间成本。在针对文本关系进行抽取过程中,采用双向长短期神经网络并结合注意力机制,提升文本中抽取实体之间关系的准确率。
-
-
-
-
-
-
-
-
-