-
公开(公告)号:CN115130601B
公开(公告)日:2025-03-28
申请号:CN202210795308.4
申请日:2022-07-07
Applicant: 上海交通大学
IPC: G06F18/241 , G06F40/216 , G06F40/284 , G06N3/0464 , G06N3/08 , G06F18/2415 , G06F18/23
Abstract: 本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。
-
公开(公告)号:CN115130601A
公开(公告)日:2022-09-30
申请号:CN202210795308.4
申请日:2022-07-07
Applicant: 上海交通大学
IPC: G06K9/62 , G06F40/216 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。
-