-
公开(公告)号:CN106021362B
公开(公告)日:2018-04-13
申请号:CN201610306218.9
申请日:2016-05-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30268 , G06K9/6215 , G06K9/6218 , G06K9/6221 , G06K9/6256 , G06K9/6267 , G06K9/6269
Abstract: 本发明实施例公开了一种查询式的图片特征表示的生成、图片搜索方法和装置。所述查询式的图片特征表示的生成方法包括:根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合;根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量;根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示。本发明的技术方案优化了现有的图片搜索技术,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。
-
公开(公告)号:CN106021364B
公开(公告)日:2017-12-12
申请号:CN201610306220.6
申请日:2016-05-10
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06K9/6257 , G06F17/30271 , G06F17/30867 , G06K9/66 , G06N3/0454 , G06N3/0472 , G06N3/08
Abstract: 本发明实施例公开了一种图片搜索相关性预测模型的建立、图片搜索方法和装置。图片搜索相关性预测模型的建立方法包括:使用训练样本对预先构建的原始深层神经网络进行训练;训练样本包括:查询式以及图片数据,原始深层神经网络包括:表示向量生成网络以及相关计算网络;将训练完成的原始深层神经网络作为图片搜索相关性预测模型。本发明的技术方案优化了现有的图片搜索技术,在查询式与图片文本的语义匹配、查询式与图片内容的语义匹配、点击泛化等几个方面的能力比现有技术及各种融合和变种的能力更强,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。
-
公开(公告)号:CN107451180A
公开(公告)日:2017-12-08
申请号:CN201710442512.7
申请日:2017-06-13
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提供一种识别站点同源关系的方法、装置、设备和计算机存储介质,识别站点同源关系的方法包括:抓取页面并进行解析,获取页面信息;统计所获取的页面信息,得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点与各图片站点的字面名称中的至少一个;根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点与各图片站点的字面名称中的至少一个,识别具有同源关系的页面站点以及图片站点。本发明能够识别站点同源关系,并能够提高识别的准确率。
-
公开(公告)号:CN106021362A
公开(公告)日:2016-10-12
申请号:CN201610306218.9
申请日:2016-05-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30268 , G06K9/6215 , G06K9/6218 , G06K9/6221 , G06K9/6256 , G06K9/6267 , G06K9/6269 , G06F17/30247
Abstract: 本发明实施例公开了一种查询式的图片特征表示的生成、图片搜索方法和装置。所述查询式的图片特征表示的生成方法包括:根据搜索用户的图片点击日志,获取与目标查询式对应的点击图片集合;根据图片的图片内容特征,生成与所述点击图片集合中各点击图片对应的图片特征向量;根据所述图片特征向量,对各所述点击图片进行聚类,并将聚类结果作为所述目标查询式的图片特征表示。本发明的技术方案优化了现有的图片搜索技术,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。
-
公开(公告)号:CN107679183B
公开(公告)日:2020-11-06
申请号:CN201710912302.X
申请日:2017-09-29
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/9535 , G06F16/583 , G06K9/62
Abstract: 本发明提出了分类器用训练数据获取方法和装置、服务器及存储介质。该分类器用训练数据获取方法包括以下步骤:图片检索意图获得步骤,根据用户输入获得图片检索意图;图片提供步骤,根据所述图片检索意图向用户提供展示图片;类别对应步骤,根据用户对所述图片的选择,确定所述图片检索意图与对应的图片实体分类类别对。根据本发明的实施方式,可以获得更多的高质量训练数据,有助于分类器性能的提高。
-
公开(公告)号:CN107679183A
公开(公告)日:2018-02-09
申请号:CN201710912302.X
申请日:2017-09-29
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出了分类器用训练数据获取方法和装置、服务器及存储介质。该分类器用训练数据获取方法包括以下步骤:图片检索意图获得步骤,根据用户输入获得图片检索意图;图片提供步骤,根据所述图片检索意图向用户提供展示图片;类别对应步骤,根据用户对所述图片的选择,确定所述图片检索意图与对应的图片实体分类类别对。根据本发明的实施方式,可以获得更多的高质量训练数据,有助于分类器性能的提高。
-
公开(公告)号:CN107451194A
公开(公告)日:2017-12-08
申请号:CN201710527201.0
申请日:2017-06-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30268
Abstract: 本申请提供一种图片搜索方法及装置,包括:接收搜索词;根据所述搜索词从图片数据库和图集数据库中获取搜索结果项;对所述搜索结果项进行混合排序;展示所述排序后的搜索结果项。能够避免现有技术中没有使用搜索引擎技术对图集做建库和检索排序,必须预先针对高频搜索挖掘图集资源,可扩展性和时效性都较差;没有引入图集维度的特征参与排序,不能有效控制图集的相关性和质量;没有引入点击特征形成负反馈机制,低质图集不能在系统内自然沉降的问题。能够降低用户在搜索结果中选图的成本,同时满足用户对成套图片的需求。
-
公开(公告)号:CN106844685B
公开(公告)日:2020-07-28
申请号:CN201710057271.4
申请日:2017-01-26
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/951 , G06F16/953 , G06F40/30
Abstract: 本申请公开了用于识别网站的方法、装置及服务器。该方法的一具体实施方式包括:获取待识别网站的网页集合;识别该网页集合中的异常网页,其中,该异常网页中的图片信息与文本信息的相关度小于相关度阈值;确定识别出的异常网页在该网页集合中的比率;根据所确定的比率,确定该待识别网站是否为垃圾网站。该实施方式提高了识别垃圾网站的效率。
-
公开(公告)号:CN106021364A
公开(公告)日:2016-10-12
申请号:CN201610306220.6
申请日:2016-05-10
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06K9/6257 , G06F17/30271 , G06F17/30867 , G06K9/66 , G06N3/0454 , G06N3/0472 , G06N3/08 , G06F17/30268
Abstract: 本发明实施例公开了一种图片搜索相关性预测模型的建立、图片搜索方法和装置。图片搜索相关性预测模型的建立方法包括:使用训练样本对预先构建的原始深层神经网络进行训练;训练样本包括:查询式以及图片数据,原始深层神经网络包括:表示向量生成网络以及相关计算网络;将训练完成的原始深层神经网络作为图片搜索相关性预测模型。本发明的技术方案优化了现有的图片搜索技术,在查询式与图片文本的语义匹配、查询式与图片内容的语义匹配、点击泛化等几个方面的能力比现有技术及各种融合和变种的能力更强,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。
-
公开(公告)号:CN107451180B
公开(公告)日:2021-02-19
申请号:CN201710442512.7
申请日:2017-06-13
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/953
Abstract: 本发明提供一种识别站点同源关系的方法、装置、设备和计算机存储介质,识别站点同源关系的方法包括:抓取页面并进行解析,获取页面信息;统计所获取的页面信息,得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点与各图片站点的字面名称中的至少一个;根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点与各图片站点的字面名称中的至少一个,识别具有同源关系的页面站点以及图片站点。本发明能够识别站点同源关系,并能够提高识别的准确率。
-
-
-
-
-
-
-
-
-