一种基于LSD线段检测的文档图像三角图检测方法

    公开(公告)号:CN114005130B

    公开(公告)日:2024-07-26

    申请号:CN202111175439.4

    申请日:2021-10-09

    Abstract: 本发明公开了一种基于LSD线段检测的文档图像三角图检测方法,包括以下步骤:步骤1、对采集得到的文档图像进行高斯滤波降噪,得到低噪图像;步骤2、对低噪图像进行LSD线段检测,得到原始线段集合;步骤3、对原始线段集合进行处理,合并重叠和错误分段的线段,得到合并线段集合;步骤4、搜寻合并线段集合中符合预设条件的三角图线段组,对各三角图线段组中三条线段所在直线的交点处进行Harris角点检测,得到各三角图线段组对应的三角图角点组;步骤5、根据三角图线段组与三角图角点组中各线段与角点之间的相对位置,判断该三角图线段组所在处是否为三角图。本发明进一步降低误检率,准确检测处文档图像中的三角图。

    基于数据挖掘和树状结构的河流相知识图谱反推方法

    公开(公告)号:CN114117061B

    公开(公告)日:2024-07-16

    申请号:CN202111255195.0

    申请日:2021-10-27

    Abstract: 本发明公开了一种基于数据挖掘和树状结构的河流相知识图谱反推方法,属于自然语言处理技术领域。该方法包括如下步骤:1、通过在河流相文献中运用命名体识别抽取实体并通过人工完善实体种类;2:根据步骤1的实体种类构建层级关系主要为岩性关系和结构关系;3:根据步骤1和步骤2构建专家领域河流相知识图谱;4:根据步骤3构建河流相树状结构节点,使得每个节点都存在于一个树状结构当中;5:根据步骤4,构建河流相反推方法,并通过专家输入单个实体或实体组合反推出河流相层级关系的组合比率并筛选出最佳的可能性。本发明适用于异构数据的信息获取和分析工作。

    一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质

    公开(公告)号:CN114625885A

    公开(公告)日:2022-06-14

    申请号:CN202210224702.2

    申请日:2022-03-07

    Abstract: 一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质,本发明所述方法在分析文档上下文语段,构造实体和关系后,通过聚类算法,将松散的子类实体,与父类实体相互关联,形成紧密的查询结构;在文本实体识别过程中,采用构建触发器的方法进行触发要素的选择,提高文字识别准确率,能够更快速、便捷地寻找到识别目标;在数据集构建中,采取了多路匹配的方式,有利于提升整体的数据集构建效率,减少人工标注所带来的时间成本。在针对文本关系进行抽取过程中,采用双向长短期神经网络并结合注意力机制,提升文本中抽取实体之间关系的准确率。

    一种面向文献的表格信息抽取方法

    公开(公告)号:CN113609906A

    公开(公告)日:2021-11-05

    申请号:CN202110736883.2

    申请日:2021-06-30

    Abstract: 本发明涉及一种面向文献的表格信息抽取方法,属于数据处理以及计算机视觉领域。该方法包括以下步骤:1:利用规则获取所有可能含表格的候选页面;2:将获取的页面转化为图片文件;3:采用深度学习方法,获取图片文件的特征;4:根据获取的图片文件的特征,对图片进行特征融合;获取融合后的特征;5:根据获取的特征融合后的特征,对表格的位置进行初步定位;6:针对获得的表格定位信息,根据表格元素的长宽关系,将横板表格旋转为竖版表格;7:根据获得的竖版表格,读取单元格字符流。本发明能自动对表格位置进行准确的定位,能够精确的从表格中读取表格的字符流。

    基于NLP信息萃取与词性规则的沉积学文献挖掘方法

    公开(公告)号:CN113468890A

    公开(公告)日:2021-10-01

    申请号:CN202110818775.X

    申请日:2021-07-20

    Abstract: 基于NLP信息萃取与词性规则的沉积学文献挖掘方法,步骤1:根据最低流量限制和期望下载时间预期值,对相关文件进行下载;步骤2:根据机器视觉,对文本内容进行识别;步骤3:分析文档上下文语段,获取语句文本中自定义多类实体关键词词典列表;步骤4:采用余弦相似度测量分析技术,根据关键词种类,对文本中相同词性关键词进行识别,生成非结构化多分类文本;步骤5:对分类实体分别进行多路匹配,记录实体标签属性,生成大样本训练数据集;步骤6:针对步骤5生成大样本数据集和步骤3需要识别文献文本,利用双向长短期记忆神经网络模型结合条件随机场进行名体识别,实现对所需实体的识别,筛选出文本中实体进行存储。

Patent Agency Ranking