知识数据的处理方法和装置

    公开(公告)号:CN105354224A

    公开(公告)日:2016-02-24

    申请号:CN201510640181.9

    申请日:2015-09-30

    CPC classification number: G06F16/24564 G06N5/022

    Abstract: 本发明实施例公开了一种知识数据的处理方法和装置。所述处理方法包括:获取待检测的知识数据;从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据;根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突。采用本发明实施例,便于后续对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。

    知识数据的处理方法和装置

    公开(公告)号:CN105279277A

    公开(公告)日:2016-01-27

    申请号:CN201510772788.2

    申请日:2015-11-12

    Inventor: 陈琳 李浩 王波

    CPC classification number: G06F17/30 G06F17/30569 G06F17/30294 G06F17/30563

    Abstract: 本发明实施例提供一种知识数据的处理方法和装置,所述方法包括:获取从多个数据来源收集的网页知识数据;对各所述网页知识数据进行分析,从其提取多个类别的属性信息,并根据所述属性信息分别构建各所述网页知识数据的结构化数据;根据构建的各所述网页知识数据的结构化数据之间的相似度,将不同数据来源的网页知识数据进行合并,以构建不同实体的知识数据。本发明的技术方案可实现将不同知识源的数据针对相同的实体进行合并,丰富实体信息。

    一种用于识别失序文本的方法与设备

    公开(公告)号:CN102982011A

    公开(公告)日:2013-03-20

    申请号:CN201110264214.6

    申请日:2011-09-07

    Abstract: 本发明的目的是提供一种用于识别失序文本的方法与设备。其中,识别设备获取待识别的目标文本;根据所述目标文本,获得与所述目标文本相对应的统计信息;根据所述统计信息,识别所述目标文本是否为失序文本。与现有技术相比,本发明根据获得的与目标文本相对应的统计信息,识别该目标文本是否为失序文本,进而实现有效的文本内容管理。

    过滤网站内链的方法及装置

    公开(公告)号:CN105183894B

    公开(公告)日:2020-03-10

    申请号:CN201510633911.2

    申请日:2015-09-29

    Abstract: 本发明公开了一种过滤网站内链的方法及装置。该方法包括:提取指定网站的内链的设定特征;将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分类;根据分类结果,对所述内链进行过滤。本发明可以根据过滤结果过滤掉网站中的低质内链,保留网站中的高质内链,提高了指定网站的内链质量,提升用户的体验。

    信息提取模板的建立方法、知识数据的处理方法和装置

    公开(公告)号:CN105488105A

    公开(公告)日:2016-04-13

    申请号:CN201510809586.0

    申请日:2015-11-19

    Abstract: 本发明实施例提供一种信息提取模板的建立方法、知识数据的处理方法和装置。所述信息提取模板的建立方法包括:从多个知识数据中的结构化数据分别获取预定属性的第一属性值;分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段;根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。采用本发明实施例,可以使得用户不需要通过人工设置触发词的方式即可进行预定属性的属性值的提取操作,而且由于属性信息提取模板是通过知识数据中的内容片段建立,所以提高了属性信息的查全率和提取精度。

    一种用于评估垃圾信息挖掘规则的方法与设备

    公开(公告)号:CN102982048A

    公开(公告)日:2013-03-20

    申请号:CN201110264221.6

    申请日:2011-09-07

    Abstract: 本发明的目的是提供一种用于评估垃圾信息挖掘规则的方法与设备,其中,评估设备获取待评估的挖掘规则及用于评估所述挖掘规则的信息发布样本;随后,基于所述挖掘规则对所述信息发布样本进行垃圾信息挖掘,进而获取与所述挖掘规则相对应的至少一项评价参数。与现有技术相比,本发明通过获取与待评估的挖掘规则相对应的至少一项评价参数,向互动平台管理者提供了对该挖掘规则进行评估的指标,进而可对该挖掘规则进行优化更新,以提高所述各项评价参数,使得互动平台可以更为准确判断垃圾信息并对其进行处理,从而保障互动平台的正常工作。

    一种用于获取失序文本中的目标字符串的方法与设备

    公开(公告)号:CN102982012A

    公开(公告)日:2013-03-20

    申请号:CN201110264447.6

    申请日:2011-09-07

    Abstract: 本发明的目的是提供一种用于获取失序文本中的目标字符串的与设备。其中,失序文本处理设备获取待处理的失序文本;对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。与现有技术相比,本发明通过对失序文本中的字符进行排列组合,并将其结果在目标模式库中进行匹配查询,以获得所述失序文本中包含禁止信息的目标字符串,从而有效识别失序文本中的禁止信息,由此增强系统应用过滤禁止信息的能力。

Patent Agency Ranking