-
公开(公告)号:CN103902674B
公开(公告)日:2017-10-27
申请号:CN201410103248.0
申请日:2014-03-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提出一种特定主题的评论数据的采集方法和装置。其中该方法包括:根据特定主题构造搜索词,并根据搜索词进行搜索以获取多个具有评论数据的网站;分别从多个具有评论数据的网站中提取与特定主题对应的评论数据,并根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站;获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据;获取多个评论目标中属于特定主题的特定评论目标,并将特定评论目标对应的评论数据与特定主题相关联。本发明的特定主题的评论数据的采集方法,实现了互联网全局评论数据的整合,提升了评论数据的质量,自动化程度高,用户体验好。
-
公开(公告)号:CN105243120A
公开(公告)日:2016-01-13
申请号:CN201510632775.5
申请日:2015-09-29
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F16/3329
Abstract: 本发明公开了一种检索方法及装置。所述检索方法包括:对用户的查询语句进行语义分析;通过检索非结构化数据语料库,获得语义分析结果匹配的语料片段;对匹配的语料片段进行分词和过滤处理,并采用抽取器对过滤后的语料片段进行抽取,以获得所述查询语句的答案。本发明实施例的技术方案,提供了一种兼具高可信度及适应范围宽的检索信息方式。
-
公开(公告)号:CN105224642A
公开(公告)日:2016-01-06
申请号:CN201510625039.7
申请日:2015-09-25
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06F17/30864 , G06F17/275
Abstract: 本发明提出一种实体标签的抽取方法和装置,该实体标签的抽取方法包括:从网页中获取用于描述实体间共性的自然语言片段;获取满足所述自然语言片段的实体;将所述自然语言片段作为多实体标签,建立所述多实体标签与所述实体之间的关联关系。该方法能够提高能够描述的实体关系的覆盖范围,并且可以提高描述方式的自然度。
-
公开(公告)号:CN104915420A
公开(公告)日:2015-09-16
申请号:CN201510315695.7
申请日:2015-06-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种知识库数据处理方法,所述方法包括:从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息,根据选取的所述关系信息,训练得到与所述关系信息对应的模板,以所述模板作为输入特征,训练得到机器学习模型,在对所述机器学习模型评估达标后提取所述关系信息;将提取的所述关系信息加入所述知识库中,通过搜索引擎查询请求数据,并对查询到的数据进行模板匹配,再由所述机器学习模型进行预测处理。通过采用本发明,可更加准确高效地对知识库数据进行补充。
-
公开(公告)号:CN104915420B
公开(公告)日:2019-12-31
申请号:CN201510315695.7
申请日:2015-06-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/907
Abstract: 本发明公开了一种知识库数据处理方法,所述方法包括:从知识库中提取标记的三元组数据并选取所述三元组数据中的关系信息,根据选取的所述关系信息,训练得到与所述关系信息对应的模板,以所述模板作为输入特征,训练得到机器学习模型,在对所述机器学习模型评估达标后提取所述关系信息;将提取的所述关系信息加入所述知识库中,通过搜索引擎查询请求数据,并对查询到的数据进行模板匹配,再由所述机器学习模型进行预测处理。通过采用本发明,可更加准确高效地对知识库数据进行补充。
-
公开(公告)号:CN105574098B
公开(公告)日:2019-02-12
申请号:CN201510920987.3
申请日:2015-12-11
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/28
Abstract: 本发明实施例提供了一种知识图谱的生成方法及装置、实体对比方法及装置。一方面,本发明实施例通过采集各实体的结构化数据和非结构化数据;从而,对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;进而,根据经过数据校验的各实体的属性信息,构建知识图谱。因此,本发明实施例提供的技术方案用以解决现有技术中获取实体对比结果的效率比较低,获取成本比较高以及对比结果的准确率比较低的问题。
-
-
公开(公告)号:CN104978396A
公开(公告)日:2015-10-14
申请号:CN201510295701.7
申请日:2015-06-02
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06F16/3329 , G06F16/951 , G09B7/02
Abstract: 本发明提供了一种基于知识库的问答题目生成方法和装置。该方法可包括:从知识库中获取三元数据组,其中,所述三元数据组包括实体、属性和属性值三个元素,各元素的关系为:属性值元素为实体元素的属性元素对应的取值;将该三元数据组中的任意一个元素作为正确答案根据语言习惯表达的模板生成该正确答案对应的问题。本发明的上述方法和装置,能够以三元数据组中的一个元素作为正确答案,另外两个元素转化为对应问题的主干,根据语言习惯表达模板显著改善了海量的结构化知识数据向问答题目的数据转化效率。
-
公开(公告)号:CN105354224B
公开(公告)日:2019-07-23
申请号:CN201510640181.9
申请日:2015-09-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/2455 , G06N5/02
Abstract: 本发明实施例公开了一种知识数据的处理方法和装置。所述处理方法包括:获取待检测的知识数据;从所述待检测的知识数据提取主体、谓词和客体的数据,得到相应的第一结构化知识数据;根据预设的知识冲突检测规则,将所述第一结构化知识数据和已有的第二结构化知识数据进行比对,确定所述待检测的知识数据是否与所述已有的知识数据存在信息冲突。采用本发明实施例,便于后续对存在信息冲突的知识数据的正确性做进一步判别,以提高知识库中知识数据的准确率。
-
公开(公告)号:CN105224642B
公开(公告)日:2019-03-12
申请号:CN201510625039.7
申请日:2015-09-25
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/951 , G06F17/27
Abstract: 本发明提出一种实体标签的抽取方法和装置,该实体标签的抽取方法包括:从网页中获取用于描述实体间共性的自然语言片段;获取满足所述自然语言片段的实体;将所述自然语言片段作为多实体标签,建立所述多实体标签与所述实体之间的关联关系。该方法能够提高能够描述的实体关系的覆盖范围,并且可以提高描述方式的自然度。
-
-
-
-
-
-
-
-
-