-
公开(公告)号:CN119646331A
公开(公告)日:2025-03-18
申请号:CN202411693666.X
申请日:2024-11-25
Applicant: 上海交通大学
IPC: G06F16/957 , G06F16/958 , G06F40/14 , G06F40/205 , G06F16/35 , G06F18/25 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于多维度特征的通用二阶段网页信息提取方法和系统,第一阶段通过分析目标网页的文本内容、HTML结构内容获得文本特征、XPath特征、位置特征和节点标签特征,通过双向长短期记忆模型学习多维度的节点表征,实现节点级信息提取与网页摘要提取;第二阶段基于Transformer架构的语言模型对网页摘要进行向量表征,通过文本范围预测实现节点内部的实体信息识别。本发明通过设计二阶段网页信息提取流程,解决了以往技术只能针对单一类别信息提取的问题,实现了节点级、实体级信息同步提取的技术效果。