-
公开(公告)号:CN109033385A
公开(公告)日:2018-12-18
申请号:CN201810848059.4
申请日:2018-07-27
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明实施例公开一种图片检索方法、装置、服务器及存储介质,其中,方法包括:从所有网页的图片中识别出多个内容相同的图片组;对每个图片组中,各图片的所有来源网页的图片相关文本进行聚合,得到每个图片组的文本描述;基于每个图片组的文本描述,为各图片组中的每个图片建立倒排索引,其中针对每一个文本描述,倒排索引中至少包含该文本描述所属的图片组中所有文本描述所对应的来源网页;根据输入的检索词和倒排索引进行图片检索。本发明实施例可实现以图片为基本单位将相关来源网页聚合后作为构建倒排索引的图片文本描述信息,减少图片索引的冗余信息,同时可精准召回跨页面命中的结果,对长检索词或多个限定词语的检索词也能精准召回。
-
公开(公告)号:CN109033385B
公开(公告)日:2021-08-27
申请号:CN201810848059.4
申请日:2018-07-27
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/58 , G06F16/9535
Abstract: 本发明实施例公开一种图片检索方法、装置、服务器及存储介质,其中,方法包括:从所有网页的图片中识别出多个内容相同的图片组;对每个图片组中,各图片的所有来源网页的图片相关文本进行聚合,得到每个图片组的文本描述;基于每个图片组的文本描述,为各图片组中的每个图片建立倒排索引,其中针对每一个文本描述,倒排索引中至少包含该文本描述所属的图片组中所有文本描述所对应的来源网页;根据输入的检索词和倒排索引进行图片检索。本发明实施例可实现以图片为基本单位将相关来源网页聚合后作为构建倒排索引的图片文本描述信息,减少图片索引的冗余信息,同时可精准召回跨页面命中的结果,对长检索词或多个限定词语的检索词也能精准召回。
-
公开(公告)号:CN107622056B
公开(公告)日:2021-03-02
申请号:CN201610549832.8
申请日:2016-07-13
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06K9/62 , G06F16/955
Abstract: 本发明实施例公开了一种训练样本的生成方法和装置。所述方法包括:使用已标注样本对基准评分模型进行训练,生成调整训练模型;将待标注样本输入至调整训练模型中,生成与待标注样本对应的模型评分;根据已标注样本的样本评分与已标注样本的模型评分之间的关联关系,以及与待标注样本对应的模型评分,确定与待标注样本对应的标注样本评分;使用标注样本评分对待标注样本进行标注,生成新的已标注样本。本发明的技术方案解决了人工标注训练样本获取难度大,标注时间周期长,准确率得不到保证的技术问题,减少了人工标注训练样本的工作量,提高了训练样本的标注效率。
-
公开(公告)号:CN107622056A
公开(公告)日:2018-01-23
申请号:CN201610549832.8
申请日:2016-07-13
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明实施例公开了一种训练样本的生成方法和装置。所述方法包括:使用已标注样本对基准评分模型进行训练,生成调整训练模型;将待标注样本输入至调整训练模型中,生成与待标注样本对应的模型评分;根据已标注样本的样本评分与已标注样本的模型评分之间的关联关系,以及与待标注样本对应的模型评分,确定与待标注样本对应的标注样本评分;使用标注样本评分对待标注样本进行标注,生成新的已标注样本。本发明的技术方案解决了人工标注训练样本获取难度大,标注时间周期长,准确率得不到保证的技术问题,减少了人工标注训练样本的工作量,提高了训练样本的标注效率。
-
-
-