文档处理方法、装置和存储介质

    公开(公告)号:CN109657010B

    公开(公告)日:2020-10-09

    申请号:CN201811273922.4

    申请日:2018-10-30

    Abstract: 本发明提供一种文档处理方法、装置和存储介质,该方法包括:将多个文档转换为多个网页文档;根据每个网页文档的实体,将多个网页文档划分为多个文档集合,每个文档集合包含有至少一个网页文档,至少一个网页文档的实体相同,文档集合对应的实体为文档集合所包括的至少一个网页文档的实体;根据每个文档集合对应的实体,以及实体与实体类型的对应关系,获取每个文档集合对应的实体类型。本发明将不同类型的文档转换为统一的网页文档,便于进行文档的结构化处理;且根据每个网页文档的实体,将文档进行分类,便于构建知识图谱。

    文档处理方法、装置和存储介质

    公开(公告)号:CN109657010A

    公开(公告)日:2019-04-19

    申请号:CN201811273922.4

    申请日:2018-10-30

    Abstract: 本发明提供一种文档处理方法、装置和存储介质,该方法包括:将多个文档转换为多个网页文档;根据每个网页文档的实体,将多个网页文档划分为多个文档集合,每个文档集合包含有至少一个网页文档,至少一个网页文档的实体相同,文档集合对应的实体为文档集合所包括的至少一个网页文档的实体;根据每个文档集合对应的实体,以及实体与实体类型的对应关系,获取每个文档集合对应的实体类型。本发明将不同类型的文档转换为统一的网页文档,便于进行文档的结构化处理;且根据每个网页文档的实体,将文档进行分类,便于构建知识图谱。

Patent Agency Ranking