一种基于词向量的新闻传播路径生成方法以及相关装置

    公开(公告)号:CN115730589A

    公开(公告)日:2023-03-03

    申请号:CN202211377457.5

    申请日:2022-11-04

    Abstract: 本申请公开了一种基于词向量的新闻传播路径生成方法以及相关装置,能够提高搜索相似新闻标题的效率,从而提高新闻传播路径的生成效率。本申请方法包括:获取多个新闻标题;通过Bert模型将任一新闻标题向量化映射为新闻标题向量;采用K‑means聚类算法将新闻标题向量进行聚类处理,以得到预设数量K的分类标签;采用向量相似度函数对任一分类标签内的多个新闻标题向量两两进行相似度计算,并确定任一分类标签内的相似新闻标题向量,相似新闻标题向量为新闻标题向量中大于或者等于预设相似度阈值的新闻标题向量;根据任一分类标签内的相似新闻标题向量以及生成时间的升序排列生成传播路径。

    网页数据采集装置及方法
    4.
    发明公开

    公开(公告)号:CN117828158A

    公开(公告)日:2024-04-05

    申请号:CN202410020784.8

    申请日:2024-01-05

    Abstract: 本发明公开了一种网页数据采集装置及方法,该装置包括:任务配置模块、任务调度模块、采集模块和存储模块;所述任务配置模块,用于为用户提供可视化交互界面,以使用户通过所述可视化交互界面自定义采集任务脚本并配置任务调度信息;所述任务调度模块,用于根据所述任务调度信息为采集任务提供管理功能,所述管理功能包括:自动周期调度、单次调度、日志检查;所述采集模块,用于根据所述任务调试模块的触发基于所述采集任务脚本进行数据采集;所述存储模块,用于存储所述采集模块采集的数据。利用本发明方案,可以灵活方便地使用户实现多种网页数据的采集,满足不同场景下的网页数据采集需求。

Patent Agency Ranking