-
公开(公告)号:CN105718528A
公开(公告)日:2016-06-29
申请号:CN201610029065.8
申请日:2016-01-15
Applicant: 上海交通大学
IPC: G06F17/30
CPC classification number: G06F16/358 , G06F16/3325
Abstract: 本发明提供了一种基于论文间引用关系的学术地图展示方法,包括如下步骤:步骤1:利用聚类算法及分布式处理法将事先获取的论文引用关系数据进行聚类,并划分为多个社区;步骤2:分析多个社区的属性和含义,将相关的引用关系数据存入数据库中;步骤3:读取数据库中的引用关系数据并构建论文引用网络,利用可视化工具动态展现论文间的关系,找到目标论文;步骤4:在多个视角上展示论文间的引用关系,形成学术地图。本发明通过聚类算法分布式处理,对事先获取的论文数据进行聚类划分多个社区,并以动态可视化方式展现论文间关系,有效提高用户检索论文的效率。
-
公开(公告)号:CN119646331A
公开(公告)日:2025-03-18
申请号:CN202411693666.X
申请日:2024-11-25
Applicant: 上海交通大学
IPC: G06F16/957 , G06F16/958 , G06F40/14 , G06F40/205 , G06F16/35 , G06F18/25 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于多维度特征的通用二阶段网页信息提取方法和系统,第一阶段通过分析目标网页的文本内容、HTML结构内容获得文本特征、XPath特征、位置特征和节点标签特征,通过双向长短期记忆模型学习多维度的节点表征,实现节点级信息提取与网页摘要提取;第二阶段基于Transformer架构的语言模型对网页摘要进行向量表征,通过文本范围预测实现节点内部的实体信息识别。本发明通过设计二阶段网页信息提取流程,解决了以往技术只能针对单一类别信息提取的问题,实现了节点级、实体级信息同步提取的技术效果。
-
公开(公告)号:CN113806514B
公开(公告)日:2024-03-01
申请号:CN202111101997.6
申请日:2021-09-18
Applicant: 上海交通大学
IPC: G06F16/335 , G06F40/117 , G06F40/126 , G06F40/242 , G06F40/295 , G06F40/30 , G06N3/0499 , G06N3/08
Abstract: 本发明提供了一种基于Transformer模型的实体关系抽取方法和系统,包括:对非结构化文本进行数据处理,得到实体以及对应关系;根据关系类型,将关系抽取转换成填空的形式;基于Transformer结构,构建联合抽取模型,在编码器进行实体抽取,在非自回归解码器进行关系抽取;在解码器输入关系模板,基于前馈神经网络的复制机制,输出具有对应关系的实体对;通过两阶段排序策略和负采样机制训练模型,并对联合抽取模型效果的进行测试,并依据测试结果调整联合抽取模型。通过本发明可以实现在非结构化文本中进行特定关系的抽取,并识别出对应的实体,从而利用文本中有价值的信息。
-
公开(公告)号:CN115761773A
公开(公告)日:2023-03-07
申请号:CN202211472708.8
申请日:2022-11-17
Applicant: 上海交通大学
IPC: G06V30/412 , G06V10/82 , G06V30/14 , G06V30/148 , G06V30/413 , G06F40/18 , G06V30/19 , G06N3/0464
Abstract: 本发明提供了一种基于深度学习的图像内表格识别方法及系统,包括:步骤S1:通过深度神经网络在图像中识别并定位表格,得到表格外框的相对位置信息;步骤S2:基于相对位置信息截取表格图像,通过深度学习网络进行表格结构识别;步骤S3:根据获取的表格结构,通过OCR技术提取每个单元格内的记载的信息;步骤S4:根据识别的表格结构以及表格内记载的信息,生成可编辑的表格文档。本发明能识别任何带有表格的图像,并以很高的准确率返回表格的结构、各单元格信息和文字信息,使得图像表格数据电子化。
-
公开(公告)号:CN114004204A
公开(公告)日:2022-02-01
申请号:CN202111263283.5
申请日:2021-10-28
Applicant: 上海交通大学
IPC: G06F40/18 , G06V30/413 , G06V30/414 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于计算机视觉的表格结构重建与文字提取方法和系统,包括:步骤1:通过神经网络在PDF文档中识别并定位表格,得到表格所在的外框区域;步骤2:对PDF文档中的文字层进行解析,获取PDF文档中的文本间距;步骤3:根据框定的表格区域和本文间距,通过计算机视觉在表格区域内重建表格内框线结构;步骤4:根据表格内框线结构,从PDF文档中同位置处抽取文本信息;步骤5:根据表格内框线结构和对应文本信息,生成可编辑表格文件。本发明通过神经网络进行表格外框的识别,可以不通过人为给定表格外框区域,从而可以自动提取PDF文档中的所有表格,能够在无人监督的情况下批量提取大量PDF数据中的表格。
-
公开(公告)号:CN107480213B
公开(公告)日:2021-12-24
申请号:CN201710624691.6
申请日:2017-07-27
Applicant: 上海交通大学
IPC: G06F16/9536 , G06F16/35 , G06Q50/00
Abstract: 本发明公开了一种基于时序文本网络的社区检测与用户关系预测方法,包括:基于原始数据构建时序文本网络;针对时序文本网络,构建基于关系图模型的生成模型;利用梯度下降法构建生成模型的推断过程;根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系;根据提取出的社区信息,进行网络节点间的连接预测。本发明构建了全新的社区检测方法,并提出了社区相关度的概念,大幅提升了社区检测的准确性和解释性。
-
公开(公告)号:CN113609324A
公开(公告)日:2021-11-05
申请号:CN202110913963.0
申请日:2021-08-10
Applicant: 上海交通大学
IPC: G06F16/583 , G06F16/58 , G06F16/587 , G06K9/20 , G06K9/32
Abstract: 本发明提供了一种基于光学字符识别的地理图片位置信息识别方法及系统,包括:从地学文献中抽取插图;对抽取的插图预处理,进而对图片光学字符识别,根据光学字符识别的结果对图片筛选出包含地理位置信息的图片;对包含地理位置信息的图片的光学字符识别的结果数据清洗,把含有经纬度信息的文本规格化,构建经纬度关系矩阵,判断出图片包含的经纬度位置信息;标注出图片中识别出的经线和纬线,在前端实时展现出来,支持根据反馈实时调整识别结果。本发明使用OCR技术,构建了经纬度关系矩阵,以较高的准确性实现了地学文献中地理图片位置信息的识别与抽取,使得地学的研究人员可以更为方便地检索和标记文献,并且支持交互来校正识别结果。
-
公开(公告)号:CN113609267A
公开(公告)日:2021-11-05
申请号:CN202110826586.7
申请日:2021-07-21
Applicant: 上海交通大学
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/154 , G06F40/211 , G06F40/253 , G06F40/279 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于GCNDT‑MacBERT神经网络框架的话语关系识别方法及系统,包括如下步骤:步骤S1:得到文本的词序列和句法依存树;步骤S2:对文本进行分字得到文本的字序列,得到包含上下文信息的字向量序列;步骤S3:根据词序列对字向量序列进行融合,获得词向量序列;步骤S4将句法依存树转化为图结构,得到更多信息的词向量序列;步骤S5:利用卷积神经网络对词向量序列进行向量特征融合并映射为固定长度的向量;步骤S6:将词向量序列输入多层感知机得出分类结果。本发明充分利用了文本内的上下文信息和语法关系,使用预训练模型和图卷积网络极大的促进模型学习文本的内在语义。
-
公开(公告)号:CN113515948A
公开(公告)日:2021-10-19
申请号:CN202110031416.X
申请日:2021-01-11
Applicant: 腾讯科技(深圳)有限公司 , 上海交通大学
IPC: G06F40/30 , G06F40/205 , G06N3/08 , G06N3/04
Abstract: 本申请实施例提供了一种语言模型训练方法、装置、设备及存储介质,涉及机器学习技术领域。所述方法包括:基于全量预训练语料对初始的学生语言模型进行全量预训练,得到全量预训练后的学生语言模型;基于增量预训练语料对全量预训练后的学生语言模型进行增量预训练,得到增量预训练后的学生语言模型;其中,增量预训练语料是在全量预训练语料的基础上新增的预训练语料;采用教师语言模型对增量预训练后的学生语言模型进行知识蒸馏处理,得到蒸馏后的学生语言模型;采用目标任务的第二训练样本集,对蒸馏后的学生语言模型进行参数调整处理,得到完成训练的学生语言模型。采用本申请实施例提供的技术方案,能够节省语言模型训练的时间。
-
公开(公告)号:CN113468324A
公开(公告)日:2021-10-01
申请号:CN202110621401.9
申请日:2021-06-03
Applicant: 上海交通大学
Abstract: 本发明提供了一种基于BERT预训练模型和卷积网络的文本分类方法和系统,包括:步骤1:在数据库中获取各领域的论文文本数据以及所述论文所属领域的类别标签数据;步骤2:去除文本中的噪声,将论文文本数据和类别标签数据分为训练集和测试集,保存在文本文件中;步骤3:使用BERT预训练模型对训练集和测试集中的文本数据进行字嵌入;步骤4:将每一段文本的字嵌入组成文本矩阵作为卷积神经网络的输入,使用卷积神经网络对句子矩阵进行文本的特征提取;步骤5:将卷积神经网络提取的特征输入全连接神经网络层进行分类。本发明通过全连接神经网络进行分类,使得用户能够快捷且较为准确地按学科领域对论文文献进行分类。
-
-
-
-
-
-
-
-
-