-
公开(公告)号:CN112215006A
公开(公告)日:2021-01-12
申请号:CN202011141016.6
申请日:2020-10-22
Applicant: 上海交通大学
IPC: G06F40/295 , G06F16/33 , G06F16/35
Abstract: 本发明提供了一种机构命名实体归一化方法和系统,该方法包括:对学术机构信息数据进行筛选,去除错误数据后,得到预处理数据;对所述预处理数据进行去噪处理,得到机构命名实体归一化数据;通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别,输出判别结果,以得到机构命名实体归一化后的标准名称;根据所述标准名称,统计对应机构的论文数据。从而可以对每一个学术机构的论文数据进行统计,使得对学术机构的学术能力进行更加科学、直观地判别。
-
公开(公告)号:CN107515854A
公开(公告)日:2017-12-26
申请号:CN201710625669.3
申请日:2017-07-27
Applicant: 上海交通大学
CPC classification number: G06F17/279 , G06F17/30734 , G06N5/041 , G06Q50/01
Abstract: 本发明公开了一种基于带权时序文本网络的时序社区以及话题的检测方法,包括:基于原始数据构建带权时序文本网络;针对带权时序文本网络,构建基于主题模型的生成模型;利用吉布斯采样方法构建生成模型的推断过程;根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息,主题信息,社区与主题的对应关系,用户在社区内影响力与参与度随时间变化特性;根据提取出的信息,对用户行为进行预测。本发明对时序文本网络中的时间信息和权重信息了进行全新建模,考虑了网络中边的时间信息并对其进行了连续性建模,对带权时序网络进行了全面建模,有利于了解社区在时间尺度上的变化与发展与个人关于社区在时间尺度上的发展。
-
公开(公告)号:CN105808729A
公开(公告)日:2016-07-27
申请号:CN201610131343.0
申请日:2016-03-08
Applicant: 上海交通大学
IPC: G06F17/30
Abstract: 本发明提供了一种基于论文间引用关系的学术大数据分析方法,包括步骤1:对本地的论文数据集进行相应的分析和处理后在数据库中构建论文引用网络;步骤2:根据论文引用网络中的引用关系构建分析算法,通过该分析算法获得所述论文引用网络中节点的重要性及相互间的关系,并获得论文相对于中心论文的重要度;步骤3:将论文一对一的引用关系转化为引用方向的映射集和被引用方向的映射集,在所述论文引用网络中通过提取算法获得指定论文间的发展路径,并按照步骤2中获得的论文重要度来计算路径的重要度。本发明中的方法能够便捷地分析出数据库中论文的引用关系,并得到论文间的发展路径,提高了论文检索的精度。
-
公开(公告)号:CN115130601B
公开(公告)日:2025-03-28
申请号:CN202210795308.4
申请日:2022-07-07
Applicant: 上海交通大学
IPC: G06F18/241 , G06F40/216 , G06F40/284 , G06N3/0464 , G06N3/08 , G06F18/2415 , G06F18/23
Abstract: 本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。
-
公开(公告)号:CN119646263A
公开(公告)日:2025-03-18
申请号:CN202411618293.X
申请日:2024-11-13
Applicant: 上海交通大学
IPC: G06F16/901 , G06F16/903
Abstract: 本发明提供了一种基于结构化跳跃索引的有向无环图可达性查询方法及系统,其中方法包括:步骤S1,对有向无环图G进行拓扑排序,并计算得到深度优先搜索的起始点;步骤S2,依次从所有的起始点开始深度优先搜索,在深度优先搜索过程中,构建深度优先搜索序列号和索引;步骤S3,基于索引和深度优先搜索序列号,判断查询的源节点与目标节点之间的可达性。本发明基于结构化跳跃索引提供有向无环图可达性查询方法,使得有向无环图的可达性信息可通过较小的索引存储,且在较短的时间内返回可达性查询结果,并使得索引空间的大小和查询时间能方便地调整权衡。
-
公开(公告)号:CN117708333A
公开(公告)日:2024-03-15
申请号:CN202311814671.7
申请日:2023-12-26
Applicant: 上海交通大学
IPC: G06F16/35 , G06F16/36 , G06F16/335 , G06F40/216 , G06F40/284 , G06F18/22 , G06F18/23213
Abstract: 本发明提供了一种基于文献的地球科学热点提取与可视化方法及系统,包括:步骤1:根据地学期刊文献构建文献引文网络;步骤2:基于引文网络对地学期刊文献进行聚类;步骤3:采用主题构建方法基于文本统计提取热点关键词;步骤4:采用文本嵌入表征聚类,基于文本语义信息提取热点关键词;步骤5:将提取的关键词进行融合筛选,结合论文聚类获得地学研究热点关键词;步骤6:构建热点核心论文集及其引文网络,进行可视化展示。本发明构建了地学领域热点挖掘与可视化方案,相较于现有方法能够综合利用文本统计与语义信息对研究热点进行挖掘,能够揭示当前领域的研究重点和前沿方向,帮助科研人员更好地了解学科发展趋势、把握前沿动态。
-
公开(公告)号:CN110853120B
公开(公告)日:2023-05-19
申请号:CN201910954321.8
申请日:2019-10-09
Applicant: 上海交通大学
IPC: G06T11/60
Abstract: 本发明提供了一种基于分割绘图法的网络布局方法、系统及介质,包括:图分割步骤:根据原始数据使用启发式算法对全图进行分割得到多个子图;块间布局步骤:根据分割结果,基于图布局的力引导模型生成子图的块间布局;子图布局步骤:使用力引导模型对子图分别布局,得到最优的子图布局;拼接步骤:根据子图的块间布局对子图进行拼接,得到初期成图;调整步骤:根据力引导模型对初期成图的布局进行调整,得到最优的全图布局。本发明基于分割绘图法对超大规模网络进行布局,大幅提高了网络布局算法可处理的数据体量,突破了网络可视化算法百万量级的壁垒。
-
公开(公告)号:CN112613318B
公开(公告)日:2022-10-14
申请号:CN202011640532.3
申请日:2020-12-31
Applicant: 上海交通大学
IPC: G06F40/295 , G06F40/232 , G06N3/04 , G06N3/08 , G06F16/31
Abstract: 本发明提供了一种实体名称归一化方法,其特征在于,包括:准备待归一化的名字记录以及相对应的标注名称记录用于训练;利用自然语言处理深度学习模型对标注名称记录组成的语料库进行字符级别的语言模型预训练;将标注名称记录按照设定的规则划分为训练集和测试集;利用训练集对预训练完成的自然语言处理深度学习模型进行微调训练;利用测试集验证预训练完成的自然语言处理深度学习模型的准确度及时间性能;将利用训练集、测试集进行微调训练、验证完成的自然语言处理深度学习模型对待归一化的实体名称进行归一化处理。本发明通过预训练字符级别语言模型来提取任意名称的特征向量,从而通过训练不同名称之间的距离度量来完成名称归一化任务。
-
公开(公告)号:CN112632296B
公开(公告)日:2022-09-23
申请号:CN202011639739.9
申请日:2020-12-31
Applicant: 上海交通大学
Abstract: 本发明提供了一种基于知识图谱具有可解释性的论文推荐方法,包括如下步骤:从数据库中获取论文和用户的数据,利用获取的数据构建异构图;通过在构建的异构图中使用随机游走算法生成多条路径,利用图嵌入算法输出异构图中每个节点的向量表示;在异构图中查找到多条路径,将多条路径用矩阵表示,作为训练数据集的输入,将每条路径对应的某位用户对某论文的评分值,作为训练数据集的输出,构建训练集;搭建循环神经网络和全联接层模型,从训练集中学习循环神经网络和全联接层模型的参数;根据循环神经网络和全联接层模型为每位用户推荐预测评分最高的多篇论文,并向用户解释做出此推荐的依据。本发明通过引入知识图谱,使得推荐的结果更具可解释性。
-
公开(公告)号:CN110222273B
公开(公告)日:2021-08-17
申请号:CN201910399864.8
申请日:2019-05-14
Applicant: 上海交通大学
IPC: G06F16/9536 , G06F16/9537 , G06Q50/00
Abstract: 本发明提供一种基于地理社区的社交网络中商业点推广方法和系统,基于用户在社交网络中所发布的历史位置信息大数据,挖掘用户密集分布的地理社区和用户与地理社区的归属关系;基于用户社交关系、地理社区中用户的地理分布和所推广商业点的位置,建立推广商业点的信息在地理社区中的传播模型;运用贪心算法,选取能够带来最大期望推广效益的多个地理社区,并将该多个地理社区中的用户的密集分布位置作为商业点推广信息的初始投放位置。利用实际生活中广泛存在的地理社区,确定地理社区中用户稳定的位置分布,从而为商业点确定目标用户的位置分布;基于地理社区中用户的密集分布位置,为商业点推广广告的定向投放提供可带来最大期望收益的投放位置。
-
-
-
-
-
-
-
-
-