-
公开(公告)号:CN116955558A
公开(公告)日:2023-10-27
申请号:CN202310893387.7
申请日:2023-07-19
Applicant: 上海交通大学
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06N5/025 , G06N5/04 , G06F40/295
Abstract: 本发明提供了一种基于知识图谱推理的地学数据集问答方法及系统,包括:根据地学数据集信息构建地学知识图谱;围绕地学数据集问句的关键意图,训练命名实体识别模型进行问句语义理解与信息抽取;融合文本信息与时空信息对地理实体进行实体对齐;基于知识图谱的实体关系结构,开展知识图谱嵌入,捕获跨实体的潜在关系与全局信息,实现从地学显式数据到深层知识的知识推理;融合对齐结果与推理结果进行多域检索,得到数据集答案。本发明构建了全新的知识图谱智能问答系统,相比于现有问答系统可以提高答案查全性,同时具备知识推理能力,能够通过显式地学数据挖掘隐式内在关联,能够帮助地学专家快速准确地寻找目标数据集。
-
公开(公告)号:CN115130601A
公开(公告)日:2022-09-30
申请号:CN202210795308.4
申请日:2022-07-07
Applicant: 上海交通大学
IPC: G06K9/62 , G06F40/216 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。
-
公开(公告)号:CN119646331A
公开(公告)日:2025-03-18
申请号:CN202411693666.X
申请日:2024-11-25
Applicant: 上海交通大学
IPC: G06F16/957 , G06F16/958 , G06F40/14 , G06F40/205 , G06F16/35 , G06F18/25 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于多维度特征的通用二阶段网页信息提取方法和系统,第一阶段通过分析目标网页的文本内容、HTML结构内容获得文本特征、XPath特征、位置特征和节点标签特征,通过双向长短期记忆模型学习多维度的节点表征,实现节点级信息提取与网页摘要提取;第二阶段基于Transformer架构的语言模型对网页摘要进行向量表征,通过文本范围预测实现节点内部的实体信息识别。本发明通过设计二阶段网页信息提取流程,解决了以往技术只能针对单一类别信息提取的问题,实现了节点级、实体级信息同步提取的技术效果。
-
公开(公告)号:CN115130601B
公开(公告)日:2025-03-28
申请号:CN202210795308.4
申请日:2022-07-07
Applicant: 上海交通大学
IPC: G06F18/241 , G06F40/216 , G06F40/284 , G06N3/0464 , G06N3/08 , G06F18/2415 , G06F18/23
Abstract: 本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。
-
-
-