-
公开(公告)号:CN107992549B
公开(公告)日:2022-11-01
申请号:CN201711211271.1
申请日:2017-11-28
Applicant: 南京信息工程大学
Abstract: 本发明公开了动态短文本流聚类检索方法。本方法利用短文本流数据建立短期话题模型并综合长期历史话题模型对数据流中的短期话题模型进行修正得到话题与特征词的概率分布,再利用文档与话题之间的条件概率进行聚类,形成对关键词的动态精准检索。本发明通过建立动态话题模型,实现随时间变化的关键词检索功能,并通过多项式混合话题模型解决了短文本数据的稀疏性,信息缺失等问题,提升了信息检索的效率与性能。
-
公开(公告)号:CN107908773A
公开(公告)日:2018-04-13
申请号:CN201711241370.4
申请日:2017-11-30
Applicant: 南京信息工程大学
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06F17/30887
Abstract: 本发明提供基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法。聚焦网络爬虫的两个重要任务是:1.在网页上找到有关特定主题的文档;2.对这些网页进行分析并根据其与搜索主题的相关度进行排序。对于第一个任务,本发明提出了一种基于杜威十进制分类理论的算法来获取和分析页面中最有效的HTML结构元素,以及每个未访问链接的主题边界和锚文本。基于此,对未访问页面的主题的预测或发掘就可以获得较高准确率。此算法结合了基于链接和基于内容的方法。对于第二个任务,本发明制作“宝藏图”来实现对相关URL的优先级计算功能,借此做到优先处理那些可能存在更多与搜索目标相关的信息的未访问页面。本发明能充分挖掘网络中的有用信息,提高了聚焦爬虫的运行效率和爬取能力。
-
公开(公告)号:CN107992549A
公开(公告)日:2018-05-04
申请号:CN201711211271.1
申请日:2017-11-28
Applicant: 南京信息工程大学
IPC: G06F17/30
Abstract: 本发明公开了动态短文本流聚类检索方法。本方法利用短文本流数据建立短期话题模型并综合长期历史话题模型对数据流中的短期话题模型进行修正得到话题与特征词的概率分布,再利用文档与话题之间的条件概率进行聚类,形成对关键词的动态精准检索。本发明通过建立动态话题模型,实现随时间变化的关键词检索功能,并通过多项式混合话题模型解决了短文本数据的稀疏性,信息缺失等问题,提升了信息检索的效率与性能。
-
-