-
公开(公告)号:CN113111869B
公开(公告)日:2022-12-09
申请号:CN202110368879.5
申请日:2021-04-06
Applicant: 上海交通大学
IPC: G06V30/14 , G06V20/62 , G06V30/148 , G06V30/19
Abstract: 本发明提供了一种提取文字图片及其描述的方法和系统,包括:从文件中抽取图片及其相关描述;判断图片中是否包含子图,若不包含子图则返回图片及其描述并结束;若包含子图则基于YOLO4模型进行目标检测,对子图进行识别切割;基于YOLO4目标检测模型检测子图的图片序号;基于CRNN算法,识别检测到的图片序号;根据图片序号信息对文本描述进行拆分及重新组合;将切割好的图片与其对应的文本描述匹配并返回。本发明可抽取文件中的图片及其描述,若图片中包含子图,则将子图进行切割并与其对应描述对齐,实现了将文件中的图片数据进行整理的目的。
-
公开(公告)号:CN115130601A
公开(公告)日:2022-09-30
申请号:CN202210795308.4
申请日:2022-07-07
Applicant: 上海交通大学
IPC: G06K9/62 , G06F40/216 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。
-
公开(公告)号:CN115130601B
公开(公告)日:2025-03-28
申请号:CN202210795308.4
申请日:2022-07-07
Applicant: 上海交通大学
IPC: G06F18/241 , G06F40/216 , G06F40/284 , G06N3/0464 , G06N3/08 , G06F18/2415 , G06F18/23
Abstract: 本发明提供了一种基于多维特征融合的二阶段学术数据网页分类方法及系统,涉及网页分类技术领域,包括:步骤S1:基于学术关键词,输入搜索引擎进行检索,获取检索页面内容;步骤S2:开展基于短文本逻辑回归模型的第一阶段分类;步骤S3:获取第一阶段分类完成后标签为数据网页的网页HTML信息;步骤S4:基于网页长文本和网址信息,开展第二阶段分类,采用文本卷积神经网络结合三元组损失的深度度量学习算法;步骤S5:将最终的分类结果入库整理,分析网页中的必要信息,展示在数据门户网站上。本发明能够快速准确地从互联网中筛选出数据网页。
-
公开(公告)号:CN113111869A
公开(公告)日:2021-07-13
申请号:CN202110368879.5
申请日:2021-04-06
Applicant: 上海交通大学
Abstract: 本发明提供了一种提取文字图片及其描述的方法和系统,包括:从文件中抽取图片及其相关描述;判断图片中是否包含子图,若不包含子图则返回图片及其描述并结束;若包含子图则基于YOLO4模型进行目标检测,对子图进行识别切割;基于YOLO4目标检测模型检测子图的图片序号;基于CRNN算法,识别检测到的图片序号;根据图片序号信息对文本描述进行拆分及重新组合;将切割好的图片与其对应的文本描述匹配并返回。本发明可抽取文件中的图片及其描述,若图片中包含子图,则将子图进行切割并与其对应描述对齐,实现了将文件中的图片数据进行整理的目的。
-
-
-