-
公开(公告)号:CN118394754A
公开(公告)日:2024-07-26
申请号:CN202410425972.9
申请日:2024-04-10
Applicant: 中移雄安信息通信科技有限公司 , 中移系统集成有限公司 , 中国移动通信集团有限公司 , 中移信息系统集成有限公司
IPC: G06F16/22 , G06F16/951 , G06F16/2458
Abstract: 本申请实施例公开了一种分布式链表的数据采集方法和装置,属于数据采集技术领域,能够解决采集数据效率低的问题。包括:接收由任务主机发送的单向链表中的第一任务组节点的请求任务;第一任务组节点的请求任务包括:请求采集第一任务组节点中子任务的任务数据的任务;若第一任务组节点的请求任务带有双向链表,从双向链表的尾部取出第一子任务;执行第一子任务,得到第一子任务的执行结果信息,第一子任务的执行结果信息包括:第一子任务的任务数据、状态信息以及对应的下一子任务的请求任务中的一种或多种;在第一子任务的执行结果信息中未带有对应的下一子任务的请求任务的情况下,采集第一子任务对应的双向链表中的任务数据并存储至数据库。
-
公开(公告)号:CN119884530A
公开(公告)日:2025-04-25
申请号:CN202411994172.5
申请日:2024-12-31
Applicant: 中移雄安信息通信科技有限公司 , 中移系统集成有限公司 , 中国移动通信集团有限公司 , 中移信息系统集成有限公司
IPC: G06F16/958 , G06F16/953 , G06F16/9538 , G06F40/279 , G06F40/151 , G06F16/355 , G06N5/022 , G06N5/04
Abstract: 本申请实施例公开了一种提取网站信息的方法、装置、电子设备及存储介质,包括:获取目标网站和对应的子级页面的长文本内容;利用大模型对长文本内容进行拆分处理,得到多个知识片段,对长文本内容和知识片段进行打标签,得到第一标签;对知识片段和第一标签进行向量转换,得到第一向量值和第一标签向量值;根据第一向量值,对知识片段聚类处理,得到知识片段簇;根据第一标签向量值,对知识片段簇中的知识片段进行优先级排序,根据优先级排序后的知识片段簇,构建目标网站的初始思维导图;获取针对目标网站选取的目标关键词,确定对应的关键词向量;基于关键词向量和第一标签向量值,对初始思维导图更新,生成与目标关键词相关的新思维导图。
-