一种基于语义分析的文档查重方法及系统

    公开(公告)号:CN111325015B

    公开(公告)日:2024-01-30

    申请号:CN202010103483.3

    申请日:2020-02-19

    Abstract: 本发明公开了一种基于语义分析的文档查重方法,包括对待查重文档进行切分,构建查询语句集合;遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;根据各查询语句的重复率,计算待查重文档的重复率。同时公开了相应的系统。本发明基于关联度进行查询语句和查重语句的匹配,缩小重复率计算范围,基于义相似性获得查询语句的重复率,从而获得查重文档的重复率,可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果。

    一种基于语义分析的文档查重方法及系统

    公开(公告)号:CN111325015A

    公开(公告)日:2020-06-23

    申请号:CN202010103483.3

    申请日:2020-02-19

    Abstract: 本发明公开了一种基于语义分析的文档查重方法,包括对待查重文档进行切分,构建查询语句集合;遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;根据各查询语句的重复率,计算待查重文档的重复率。同时公开了相应的系统。本发明基于关联度进行查询语句和查重语句的匹配,缩小重复率计算范围,基于义相似性获得查询语句的重复率,从而获得查重文档的重复率,可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果。

Patent Agency Ranking