知识库数据处理方法及系统

    公开(公告)号:CN104915420B

    公开(公告)日:2019-12-31

    申请号:CN201510315695.7

    申请日:2015-06-10

    Abstract: 本发明公开了一种知识库数据处理方法,所述方法包括:从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息,根据选取的所述关系信息,训练得到与所述关系信息对应的模板,以所述模板作为输入特征,训练得到机器学习模型,在对所述机器学习模型评估达标后提取所述关系信息;将提取的所述关系信息加入所述知识库中,通过搜索引擎查询请求数据,并对查询到的数据进行模板匹配,再由所述机器学习模型进行预测处理。通过采用本发明,可更加准确高效地对知识库数据进行补充。

    信息提取模板的建立方法、知识数据的处理方法和装置

    公开(公告)号:CN105488105B

    公开(公告)日:2019-11-05

    申请号:CN201510809586.0

    申请日:2015-11-19

    Abstract: 本发明实施例提供一种信息提取模板的建立方法、知识数据的处理方法和装置。所述信息提取模板的建立方法包括:从多个知识数据中的结构化数据分别获取预定属性的第一属性值;分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段;根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。采用本发明实施例,可以使得用户不需要通过人工设置触发词的方式即可进行预定属性的属性值的提取操作,而且由于属性信息提取模板是通过知识数据中的内容片段建立,所以提高了属性信息的查全率和提取精度。

    一种用于获取失序文本中的目标字符串的方法与设备

    公开(公告)号:CN102982012B

    公开(公告)日:2017-03-22

    申请号:CN201110264447.6

    申请日:2011-09-07

    Abstract: 本发明的目的是提供一种用于获取失序文本中的目标字符串的与设备。其中,失序文本处理设备获取待处理的失序文本;对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。与现有技术相比,本发明通过对失序文本中的字符进行排列组合,并将其结果在目标模式库中进行匹配查询,以获得所述失序文本中包含禁止信息的目标字符串,从而有效识别失序文本中的禁止信息,由此增强系统应用过滤禁止信息的能力。

    知识数据的处理方法及装置

    公开(公告)号:CN105373590A

    公开(公告)日:2016-03-02

    申请号:CN201510689910.X

    申请日:2015-10-22

    Inventor: 陈琳 李浩 王波

    CPC classification number: G06F16/9535 G06F16/335

    Abstract: 本发明实施例提供一种知识数据的处理方法及装置。其中,知识数据的处理方法包括:获取包括第一实体对象的标识、属性及其属性值的实体数据;从预设的实体信息库提取分别与所述实体数据中的属性值匹配的第二实体对象的信息;将所述第二实体对象与第一实体对象进行关联,以更新与所述第一实体对象相关的知识图谱。本发明实施例的知识数据的处理方法及装置,能够自动、快速地将实体数据中描述的实体对象与实体信息库中的实体对象进行关联,从而更新完善与实体对象相关的知识图谱。

    过滤网站内链的方法及装置

    公开(公告)号:CN105183894A

    公开(公告)日:2015-12-23

    申请号:CN201510633911.2

    申请日:2015-09-29

    Abstract: 本发明公开了一种过滤网站内链的方法及装置。该方法包括:提取指定网站的内链的设定特征;将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分类;根据分类结果,对所述内链进行过滤。本发明可以根据过滤结果过滤掉网站中的低质内链,保留网站中的高质内链,提高了指定网站的内链质量,提升用户的体验。

    一种基于知识库的问答题目生成方法和装置

    公开(公告)号:CN104978396A

    公开(公告)日:2015-10-14

    申请号:CN201510295701.7

    申请日:2015-06-02

    Inventor: 王波 田力 李羽

    CPC classification number: G06F16/3329 G06F16/951 G09B7/02

    Abstract: 本发明提供了一种基于知识库的问答题目生成方法和装置。该方法可包括:从知识库中获取三元数据组,其中,所述三元数据组包括实体、属性和属性值三个元素,各元素的关系为:属性值元素为实体元素的属性元素对应的取值;将该三元数据组中的任意一个元素作为正确答案根据语言习惯表达的模板生成该正确答案对应的问题。本发明的上述方法和装置,能够以三元数据组中的一个元素作为正确答案,另外两个元素转化为对应问题的主干,根据语言习惯表达模板显著改善了海量的结构化知识数据向问答题目的数据转化效率。

    用于确定行为相关质量信息的方法、装置和设备

    公开(公告)号:CN102984191A

    公开(公告)日:2013-03-20

    申请号:CN201110264336.5

    申请日:2011-09-07

    Abstract: 本发明提供一种用于确定行为相关质量信息的方法、装置和设备,本发明的方案包括:获取用户在网络社区中至少一次网络行为的行为相关信息;根据所述行为相关信息,并结合预获取的所述用户的用户质量信息,确定与所述至少一次网络行为中的一次或多次网络行为相关的行为相关质量信息。与现有技术相比,本发明具有以下优点:能够获得较高的质量判断准确度。

    基于帖子的出现规律来检测垃圾帖子的方法及设备

    公开(公告)号:CN102315953A

    公开(公告)日:2012-01-11

    申请号:CN201010214189.6

    申请日:2010-06-29

    Abstract: 本发明提供一种用于基于帖子在检测社区网络中出现规律来检测垃圾帖子的方法和设备。该方法包括:a.对帖子进行识别,根据其内容特征及在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。优选地,步骤a包括:a1.根据预定语义规则对该帖子进行识别,提取其中的内容特征;a2.根据所述帖子的内容特征来查询与该帖子在社区网络中的出现规律;a3.基于第一预定规律根据该帖子在所述社区网络中的出现规律来判断所述帖子是否为垃圾帖子。现有技术通常孤立地对单个帖子的内容进行脏词匹配或者语义分析所造成的无法检测出在社区网络中存在大量重复帖子的情形,与之相比本发明提高了对垃圾帖子的判断准确度。

    一种用于评估垃圾信息挖掘规则的方法与设备

    公开(公告)号:CN102982048B

    公开(公告)日:2017-08-01

    申请号:CN201110264221.6

    申请日:2011-09-07

    Abstract: 本发明的目的是提供一种用于评估垃圾信息挖掘规则的方法与设备,其中,评估设备获取待评估的挖掘规则及用于评估所述挖掘规则的信息发布样本;随后,基于所述挖掘规则对所述信息发布样本进行垃圾信息挖掘,进而获取与所述挖掘规则相对应的至少一项评价参数。与现有技术相比,本发明通过获取与待评估的挖掘规则相对应的至少一项评价参数,向互动平台管理者提供了对该挖掘规则进行评估的指标,进而可对该挖掘规则进行优化更新,以提高所述各项评价参数,使得互动平台可以更为准确判断垃圾信息并对其进行处理,从而保障互动平台的正常工作。

    用于确定行为相关质量信息的方法、装置和设备

    公开(公告)号:CN102984191B

    公开(公告)日:2017-06-09

    申请号:CN201110264336.5

    申请日:2011-09-07

    Abstract: 本发明提供一种用于确定行为相关质量信息的方法、装置和设备,本发明的方案包括:获取用户在网络社区中至少一次网络行为的行为相关信息;根据所述行为相关信息,并结合预获取的所述用户的用户质量信息,确定与所述至少一次网络行为中的一次或多次网络行为相关的行为相关质量信息。与现有技术相比,本发明具有以下优点:能够获得较高的质量判断准确度。

Patent Agency Ranking