-
公开(公告)号:CN112733543A
公开(公告)日:2021-04-30
申请号:CN202110105747.3
申请日:2021-01-26
Applicant: 上海交通大学
IPC: G06F40/295
Abstract: 本发明提供了一种基于文本编辑生成模型的机构命名实体归一化方法和系统,包括:步骤S1:对所有的学术机构信息数据进行筛选;步骤S2:对已筛选的数据利用正则表达式去除数据中存在的噪音;步骤S3:将处理好的数据按照类别和预设比例分为训练集、微调数据集和测试集;步骤S4:将微调数据集输入预训练好的bert模型,对bert模型进行微调,利用微调好的bert模型进行训练集机构名的表征,并训练出文本编辑生成模型来实现机构名称的归一化;步骤S5:将测试集输入训练好的文本编辑生成模型,测试模型效果并进行微调。通过本发明可以对每一个学术机构的论文发表数进行统计,可以更科学更直观的对某个学术机构的学术能力进行判别。
-
公开(公告)号:CN112613318A
公开(公告)日:2021-04-06
申请号:CN202011640532.3
申请日:2020-12-31
Applicant: 上海交通大学
IPC: G06F40/295 , G06F40/232 , G06N3/04 , G06N3/08 , G06F16/31
Abstract: 本发明提供了一种实体名称归一化方法,其特征在于,包括:准备待归一化的名字记录以及相对应的标注名称记录用于训练;利用自然语言处理深度学习模型对标注名称记录组成的语料库进行字符级别的语言模型预训练;将标注名称记录按照设定的规则划分为训练集和测试集;利用训练集对预训练完成的自然语言处理深度学习模型进行微调训练;利用测试集验证预训练完成的自然语言处理深度学习模型的准确度及时间性能;将利用训练集、测试集进行微调训练、验证完成的自然语言处理深度学习模型对待归一化的实体名称进行归一化处理。本发明通过预训练字符级别语言模型来提取任意名称的特征向量,从而通过训练不同名称之间的距离度量来完成名称归一化任务。
-
公开(公告)号:CN110853120A
公开(公告)日:2020-02-28
申请号:CN201910954321.8
申请日:2019-10-09
Applicant: 上海交通大学
IPC: G06T11/60
Abstract: 本发明提供了一种基于分割绘图法的网络布局方法、系统及介质,包括:图分割步骤:根据原始数据使用启发式算法对全图进行分割得到多个子图;块间布局步骤:根据分割结果,基于图布局的力引导模型生成子图的块间布局;子图布局步骤:使用力引导模型对子图分别布局,得到最优的子图布局;拼接步骤:根据子图的块间布局对子图进行拼接,得到初期成图;调整步骤:根据力引导模型对初期成图的布局进行调整,得到最优的全图布局。本发明基于分割绘图法对超大规模网络进行布局,大幅提高了网络布局算法可处理的数据体量,突破了网络可视化算法百万量级的壁垒。
-
公开(公告)号:CN116484837A
公开(公告)日:2023-07-25
申请号:CN202310444562.4
申请日:2023-04-23
Applicant: 上海交通大学
IPC: G06F40/211 , G06F40/284 , G06F40/295 , G06F40/194 , G06F40/18 , G06F40/186 , G06N3/0455 , G06N3/042 , G06N3/0475 , G06N3/0985
Abstract: 本发明提供了一种表格数据的文本描述生成方法及系统,包括:获取训练样本数据并进行预处理;构建文本生成模型,将预处理后的训练样本数据作为文本生成模型的输入进行预训练;对训练样本数据中的原始表格数据进行实体检测,并对检测到的实体进行掩膜处理,得到对应掩膜提示模版数据;根据掩膜提示模版数据和文本生成模型预训练的模型参数进行训练,重构表格相关的背景知识信息及模型微调,得到最终的文本生成模型;将预处理后得训练样本数据输入最终的文本生成模型,进而生成表格数据的文本描述。本发明在少量样本的情况下无需通过大量人工标注通过采集相关背景知识即可用于生成对于相关表格内容的相应描述。快速了解文章信息,提高研究效率。
-
公开(公告)号:CN116415565A
公开(公告)日:2023-07-11
申请号:CN202310396068.5
申请日:2023-04-13
Applicant: 上海交通大学
IPC: G06F40/211 , G06F40/205 , G06F40/295 , G06F16/33 , G06N20/00
Abstract: 本发明提供了一种根据学术表格及其选中内容生成描述的方法及系统,包括:解析抽取PDF学术文献中的表格、表格背景知识以及表格内容相关的描述文本,并进行匹配;基于表格背景知识构建领域知识库,并对表格背景知识以及表格内容相关的描述文本进行预处理,将表格进行序列化处理得到序列化表格数据;使用预设模板拼接用户关注的预设表格中的信息和表格,构建关注的序列化表格数据;基于关注的序列化表格数据和领域知识库获得关键背景信息,基于获得的关键背景信息和关注的序列化表格数据生成序列化字符串;利用序列化字符串以及表格内容相关的描述文本训练文本生成模型,得到训练后的文本生成模型;利用训练后的文本生成模型预测并生成表格相关描述。
-
公开(公告)号:CN112215006A
公开(公告)日:2021-01-12
申请号:CN202011141016.6
申请日:2020-10-22
Applicant: 上海交通大学
IPC: G06F40/295 , G06F16/33 , G06F16/35
Abstract: 本发明提供了一种机构命名实体归一化方法和系统,该方法包括:对学术机构信息数据进行筛选,去除错误数据后,得到预处理数据;对所述预处理数据进行去噪处理,得到机构命名实体归一化数据;通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别,输出判别结果,以得到机构命名实体归一化后的标准名称;根据所述标准名称,统计对应机构的论文数据。从而可以对每一个学术机构的论文数据进行统计,使得对学术机构的学术能力进行更加科学、直观地判别。
-
公开(公告)号:CN117708333A
公开(公告)日:2024-03-15
申请号:CN202311814671.7
申请日:2023-12-26
Applicant: 上海交通大学
IPC: G06F16/35 , G06F16/36 , G06F16/335 , G06F40/216 , G06F40/284 , G06F18/22 , G06F18/23213
Abstract: 本发明提供了一种基于文献的地球科学热点提取与可视化方法及系统,包括:步骤1:根据地学期刊文献构建文献引文网络;步骤2:基于引文网络对地学期刊文献进行聚类;步骤3:采用主题构建方法基于文本统计提取热点关键词;步骤4:采用文本嵌入表征聚类,基于文本语义信息提取热点关键词;步骤5:将提取的关键词进行融合筛选,结合论文聚类获得地学研究热点关键词;步骤6:构建热点核心论文集及其引文网络,进行可视化展示。本发明构建了地学领域热点挖掘与可视化方案,相较于现有方法能够综合利用文本统计与语义信息对研究热点进行挖掘,能够揭示当前领域的研究重点和前沿方向,帮助科研人员更好地了解学科发展趋势、把握前沿动态。
-
公开(公告)号:CN110853120B
公开(公告)日:2023-05-19
申请号:CN201910954321.8
申请日:2019-10-09
Applicant: 上海交通大学
IPC: G06T11/60
Abstract: 本发明提供了一种基于分割绘图法的网络布局方法、系统及介质,包括:图分割步骤:根据原始数据使用启发式算法对全图进行分割得到多个子图;块间布局步骤:根据分割结果,基于图布局的力引导模型生成子图的块间布局;子图布局步骤:使用力引导模型对子图分别布局,得到最优的子图布局;拼接步骤:根据子图的块间布局对子图进行拼接,得到初期成图;调整步骤:根据力引导模型对初期成图的布局进行调整,得到最优的全图布局。本发明基于分割绘图法对超大规模网络进行布局,大幅提高了网络布局算法可处理的数据体量,突破了网络可视化算法百万量级的壁垒。
-
公开(公告)号:CN112613318B
公开(公告)日:2022-10-14
申请号:CN202011640532.3
申请日:2020-12-31
Applicant: 上海交通大学
IPC: G06F40/295 , G06F40/232 , G06N3/04 , G06N3/08 , G06F16/31
Abstract: 本发明提供了一种实体名称归一化方法,其特征在于,包括:准备待归一化的名字记录以及相对应的标注名称记录用于训练;利用自然语言处理深度学习模型对标注名称记录组成的语料库进行字符级别的语言模型预训练;将标注名称记录按照设定的规则划分为训练集和测试集;利用训练集对预训练完成的自然语言处理深度学习模型进行微调训练;利用测试集验证预训练完成的自然语言处理深度学习模型的准确度及时间性能;将利用训练集、测试集进行微调训练、验证完成的自然语言处理深度学习模型对待归一化的实体名称进行归一化处理。本发明通过预训练字符级别语言模型来提取任意名称的特征向量,从而通过训练不同名称之间的距离度量来完成名称归一化任务。
-
公开(公告)号:CN112215007B
公开(公告)日:2022-09-23
申请号:CN202011141040.X
申请日:2020-10-22
Applicant: 上海交通大学
IPC: G06F40/295 , G06F16/33 , G06F16/35
Abstract: 本发明提供了一种基于LEAM模型的机构命名实体归一化方法和系统,包括:步骤S1:通过预设统计规则对所有的学术机构信息数据进行筛选,去除不符合预设条件的数据;步骤S2:在筛选过的数据中,根据正则表达式去除数据中存在的噪音;步骤S3:将去噪的数据按照类别和预设比例分为训练集、验证集和测试集;步骤S4:将训练集和验证集输入LEAM模型,训练出用于机构命名实体归一化的模型;步骤S5:将测试集输入训练好的模型中,测试模型效果并进行微调。通过本发明可以对每一个学术机构的论文发表数进行统计,从而可以更科学,更直观的对某个学术机构的学术能力进行判别。
-
-
-
-
-
-
-
-
-