基于论文间引用关系的学术地图展示方法

    公开(公告)号:CN105718528A

    公开(公告)日:2016-06-29

    申请号:CN201610029065.8

    申请日:2016-01-15

    CPC classification number: G06F16/358 G06F16/3325

    Abstract: 本发明提供了一种基于论文间引用关系的学术地图展示方法,包括如下步骤:步骤1:利用聚类算法及分布式处理法将事先获取的论文引用关系数据进行聚类,并划分为多个社区;步骤2:分析多个社区的属性和含义,将相关的引用关系数据存入数据库中;步骤3:读取数据库中的引用关系数据并构建论文引用网络,利用可视化工具动态展现论文间的关系,找到目标论文;步骤4:在多个视角上展示论文间的引用关系,形成学术地图。本发明通过聚类算法分布式处理,对事先获取的论文数据进行聚类划分多个社区,并以动态可视化方式展现论文间关系,有效提高用户检索论文的效率。

    基于Transformer模型的实体关系抽取方法和系统

    公开(公告)号:CN113806514B

    公开(公告)日:2024-03-01

    申请号:CN202111101997.6

    申请日:2021-09-18

    Abstract: 本发明提供了一种基于Transformer模型的实体关系抽取方法和系统,包括:对非结构化文本进行数据处理,得到实体以及对应关系;根据关系类型,将关系抽取转换成填空的形式;基于Transformer结构,构建联合抽取模型,在编码器进行实体抽取,在非自回归解码器进行关系抽取;在解码器输入关系模板,基于前馈神经网络的复制机制,输出具有对应关系的实体对;通过两阶段排序策略和负采样机制训练模型,并对联合抽取模型效果的进行测试,并依据测试结果调整联合抽取模型。通过本发明可以实现在非结构化文本中进行特定关系的抽取,并识别出对应的实体,从而利用文本中有价值的信息。

    基于计算机视觉的表格结构重建与文字提取方法和系统

    公开(公告)号:CN114004204A

    公开(公告)日:2022-02-01

    申请号:CN202111263283.5

    申请日:2021-10-28

    Abstract: 本发明提供了一种基于计算机视觉的表格结构重建与文字提取方法和系统,包括:步骤1:通过神经网络在PDF文档中识别并定位表格,得到表格所在的外框区域;步骤2:对PDF文档中的文字层进行解析,获取PDF文档中的文本间距;步骤3:根据框定的表格区域和本文间距,通过计算机视觉在表格区域内重建表格内框线结构;步骤4:根据表格内框线结构,从PDF文档中同位置处抽取文本信息;步骤5:根据表格内框线结构和对应文本信息,生成可编辑表格文件。本发明通过神经网络进行表格外框的识别,可以不通过人为给定表格外框区域,从而可以自动提取PDF文档中的所有表格,能够在无人监督的情况下批量提取大量PDF数据中的表格。

    基于光学字符识别的地理图片位置信息识别方法及系统

    公开(公告)号:CN113609324A

    公开(公告)日:2021-11-05

    申请号:CN202110913963.0

    申请日:2021-08-10

    Abstract: 本发明提供了一种基于光学字符识别的地理图片位置信息识别方法及系统,包括:从地学文献中抽取插图;对抽取的插图预处理,进而对图片光学字符识别,根据光学字符识别的结果对图片筛选出包含地理位置信息的图片;对包含地理位置信息的图片的光学字符识别的结果数据清洗,把含有经纬度信息的文本规格化,构建经纬度关系矩阵,判断出图片包含的经纬度位置信息;标注出图片中识别出的经线和纬线,在前端实时展现出来,支持根据反馈实时调整识别结果。本发明使用OCR技术,构建了经纬度关系矩阵,以较高的准确性实现了地学文献中地理图片位置信息的识别与抽取,使得地学的研究人员可以更为方便地检索和标记文献,并且支持交互来校正识别结果。

    基于GCNDT-MacBERT神经网络框架的话语关系识别方法及系统

    公开(公告)号:CN113609267A

    公开(公告)日:2021-11-05

    申请号:CN202110826586.7

    申请日:2021-07-21

    Inventor: 江浩 傅洛伊

    Abstract: 本发明提供了一种基于GCNDT‑MacBERT神经网络框架的话语关系识别方法及系统,包括如下步骤:步骤S1:得到文本的词序列和句法依存树;步骤S2:对文本进行分字得到文本的字序列,得到包含上下文信息的字向量序列;步骤S3:根据词序列对字向量序列进行融合,获得词向量序列;步骤S4将句法依存树转化为图结构,得到更多信息的词向量序列;步骤S5:利用卷积神经网络对词向量序列进行向量特征融合并映射为固定长度的向量;步骤S6:将词向量序列输入多层感知机得出分类结果。本发明充分利用了文本内的上下文信息和语法关系,使用预训练模型和图卷积网络极大的促进模型学习文本的内在语义。

    语言模型训练方法、装置、设备及存储介质

    公开(公告)号:CN113515948A

    公开(公告)日:2021-10-19

    申请号:CN202110031416.X

    申请日:2021-01-11

    Abstract: 本申请实施例提供了一种语言模型训练方法、装置、设备及存储介质,涉及机器学习技术领域。所述方法包括:基于全量预训练语料对初始的学生语言模型进行全量预训练,得到全量预训练后的学生语言模型;基于增量预训练语料对全量预训练后的学生语言模型进行增量预训练,得到增量预训练后的学生语言模型;其中,增量预训练语料是在全量预训练语料的基础上新增的预训练语料;采用教师语言模型对增量预训练后的学生语言模型进行知识蒸馏处理,得到蒸馏后的学生语言模型;采用目标任务的第二训练样本集,对蒸馏后的学生语言模型进行参数调整处理,得到完成训练的学生语言模型。采用本申请实施例提供的技术方案,能够节省语言模型训练的时间。

    基于BERT预训练模型和卷积网络的文本分类方法和系统

    公开(公告)号:CN113468324A

    公开(公告)日:2021-10-01

    申请号:CN202110621401.9

    申请日:2021-06-03

    Abstract: 本发明提供了一种基于BERT预训练模型和卷积网络的文本分类方法和系统,包括:步骤1:在数据库中获取各领域的论文文本数据以及所述论文所属领域的类别标签数据;步骤2:去除文本中的噪声,将论文文本数据和类别标签数据分为训练集和测试集,保存在文本文件中;步骤3:使用BERT预训练模型对训练集和测试集中的文本数据进行字嵌入;步骤4:将每一段文本的字嵌入组成文本矩阵作为卷积神经网络的输入,使用卷积神经网络对句子矩阵进行文本的特征提取;步骤5:将卷积神经网络提取的特征输入全连接神经网络层进行分类。本发明通过全连接神经网络进行分类,使得用户能够快捷且较为准确地按学科领域对论文文献进行分类。

Patent Agency Ranking