使用自然语言处理从非结构化文档中提取信息并将非结构化文档转换为结构化文档

    公开(公告)号:CN114945911A

    公开(公告)日:2022-08-26

    申请号:CN202180008087.5

    申请日:2021-01-08

    Abstract: 一种用于从文本内容中提取信息的方法,其涉及机器学习模型生成领域。该方法一般包括接收包括具有相关文本串的多个文档的训练数据集。从训练数据集生成相关性模型。相关性模型通常被配置为从多个文档中提取的多个词生成相关性得分。从训练数据集生成示出从多个文档提取的多个词之间的关系的知识图模型。所述相关度模型和所述知识图模型被聚集成补充模型,所述补充模型包括来自所述知识图模型的多个节点和与在连接的节点之间的边相关联的权重,其中所述权重包括从所述相关度模型生成的相关性得分,并且所述补充模型被部署用于分析文档。

Patent Agency Ranking