-
公开(公告)号:CN107122403B
公开(公告)日:2020-08-07
申请号:CN201710174575.9
申请日:2017-03-22
Applicant: 安徽大学
IPC: G06F16/958 , G06F16/957
Abstract: 本发明公开了一种网页学术报告信息抽取方法和系统,包括:将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,根据所述开头位置和结尾位置合并提取各有效分割结果对应的属性内容;当属性出现重复,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中,并将多个报告中出现且仅出现一次的属性添加到本网页其他报告中;获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
-
公开(公告)号:CN107122403A
公开(公告)日:2017-09-01
申请号:CN201710174575.9
申请日:2017-03-22
Applicant: 安徽大学
IPC: G06F17/30
Abstract: 本发明公开了一种网页学术报告信息抽取方法和系统,包括:将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,根据所述开头位置和结尾位置合并提取各有效分割结果对应的属性内容;当属性出现重复,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中,并将多个报告中出现且仅出现一次的属性添加到本网页其他报告中;获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
-
公开(公告)号:CN116204608A
公开(公告)日:2023-06-02
申请号:CN202310228033.0
申请日:2023-03-10
Applicant: 安徽大学
IPC: G06F16/33 , G06F16/338 , G06F16/35
Abstract: 本发明涉及数据信息处理技术领域,公开了基于科技文档的领域趋势分析方法,包括:收集论文和专利数据后进行整理,形成科技文档后储存;自定义查询属性值生成科技文档筛选规则;将筛选规则划分为三种类别并按照顺序对所述科技文档进行操作;根据最终得到的所述科技文档的数据分析查询属性在历年的发展趋势。可以通过成熟的爬虫方案获取两种科技文档,并且对文档进行元数据识别和存储,方便后续的属性查询和趋势分析;从多种角度、多种属性进行对科技文档进行分析,最后得出领域趋势分析,能够实现领域趋势分析功能,并且结果展示效果丰富,结果完整。
-
-