知识图谱的生成方法及装置、实体对比方法及装置

    公开(公告)号:CN105574098A

    公开(公告)日:2016-05-11

    申请号:CN201510920987.3

    申请日:2015-12-11

    CPC classification number: G06F17/30864 G06F17/30867

    Abstract: 本发明实施例提供了一种知识图谱的生成方法及装置、实体对比方法及装置。一方面,本发明实施例通过采集各实体的结构化数据和非结构化数据;从而,对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;进而,根据经过数据校验的各实体的属性信息,构建知识图谱。因此,本发明实施例提供的技术方案用以解决现有技术中获取实体对比结果的效率比较低,获取成本比较高以及对比结果的准确率比较低的问题。

    知识数据的处理方法和装置

    公开(公告)号:CN105354224A

    公开(公告)日:2016-02-24

    申请号:CN201510640181.9

    申请日:2015-09-30

    CPC classification number: G06F16/24564 G06N5/022

    Abstract: 本发明实施例公开了一种知识数据的处理方法和装置。所述处理方法包括:获取待检测的知识数据;从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据;根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突。采用本发明实施例,便于后续对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。

    重复网页识别方法和装置
    13.
    发明公开

    公开(公告)号:CN104063506A

    公开(公告)日:2014-09-24

    申请号:CN201410324553.2

    申请日:2014-07-08

    Inventor: 李羽 颜俊伟 李浩

    CPC classification number: G06F17/30896

    Abstract: 本发明实施例公开了一种重复网页识别方法和装置。所述重复网页识别方法包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。本发明实施例公开的重复网页识别方法和装置利用互联网网页之间的相互链接关系提高了重复网页的识别效率。

    知识数据的处理方法和系统

    公开(公告)号:CN104866310B

    公开(公告)日:2018-07-13

    申请号:CN201510260646.8

    申请日:2015-05-20

    Inventor: 郝志新 李羽

    Abstract: 本发明实施例提供一种的知识数据的处理方法和系统。所述方法包括:获取计算脚本,该计算脚本中的语句包含用于调用封装好的计算算子的代码,该计算算子用于对知识库中的数据进行操作;对计算脚本中的语句进行解析,生成包括执行计算算子的指令;分别执行指令,以通过计算算子对知识库中的数据进行处理。本发明的技术方案提高了代码的复用性,并降低编码成本。

    重复网页识别方法和装置
    15.
    发明授权

    公开(公告)号:CN104063506B

    公开(公告)日:2017-04-12

    申请号:CN201410324553.2

    申请日:2014-07-08

    Inventor: 李羽 颜俊伟 李浩

    Abstract: 本发明实施例公开了一种重复网页识别方法和装置。所述重复网页识别方法包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。本发明实施例公开的重复网页识别方法和装置利用互联网网页之间的相互链接关系提高了重复网页的识别效率。

    知识数据的处理方法和系统

    公开(公告)号:CN104866310A

    公开(公告)日:2015-08-26

    申请号:CN201510260646.8

    申请日:2015-05-20

    Inventor: 郝志新 李羽

    Abstract: 本发明实施例提供一种的知识数据的处理方法和系统。所述方法包括:获取计算脚本,该计算脚本中的语句包含用于调用封装好的计算算子的代码,该计算算子用于对知识库中的数据进行操作;对计算脚本中的语句进行解析,生成包括执行计算算子的指令;分别执行指令,以通过计算算子对知识库中的数据进行处理。本发明的技术方案提高了代码的复用性,并降低编码成本。

    特定主题的评论数据的采集方法和装置

    公开(公告)号:CN103902674A

    公开(公告)日:2014-07-02

    申请号:CN201410103248.0

    申请日:2014-03-19

    CPC classification number: G06F17/30864

    Abstract: 本发明提出一种特定主题的评论数据的采集方法和装置。其中该方法包括:根据特定主题构造搜索词,并根据搜索词进行搜索以获取多个具有评论数据的网站;分别从多个具有评论数据的网站中提取与特定主题对应的评论数据,并根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站;获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据;获取多个评论目标中属于特定主题的特定评论目标,并将特定评论目标对应的评论数据与特定主题相关联。本发明的特定主题的评论数据的采集方法,实现了互联网全局评论数据的整合,提升了评论数据的质量,自动化程度高,用户体验好。

Patent Agency Ranking