识别站点同源关系的方法、装置、设备和计算机存储介质

    公开(公告)号:CN107451180A

    公开(公告)日:2017-12-08

    申请号:CN201710442512.7

    申请日:2017-06-13

    Abstract: 本发明提供一种识别站点同源关系的方法、装置、设备和计算机存储介质,识别站点同源关系的方法包括:抓取页面并进行解析,获取页面信息;统计所获取的页面信息,得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点与各图片站点的字面名称中的至少一个;根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点与各图片站点的字面名称中的至少一个,识别具有同源关系的页面站点以及图片站点。本发明能够识别站点同源关系,并能够提高识别的准确率。

    分类器用训练数据获取方法和装置、服务器及存储介质

    公开(公告)号:CN107679183B

    公开(公告)日:2020-11-06

    申请号:CN201710912302.X

    申请日:2017-09-29

    Inventor: 李肃 付立波

    Abstract: 本发明提出了分类器用训练数据获取方法和装置、服务器及存储介质。该分类器用训练数据获取方法包括以下步骤:图片检索意图获得步骤,根据用户输入获得图片检索意图;图片提供步骤,根据所述图片检索意图向用户提供展示图片;类别对应步骤,根据用户对所述图片的选择,确定所述图片检索意图与对应的图片实体分类类别对。根据本发明的实施方式,可以获得更多的高质量训练数据,有助于分类器性能的提高。

    分类器用训练数据获取方法和装置、服务器及存储介质

    公开(公告)号:CN107679183A

    公开(公告)日:2018-02-09

    申请号:CN201710912302.X

    申请日:2017-09-29

    Inventor: 李肃 付立波

    Abstract: 本发明提出了分类器用训练数据获取方法和装置、服务器及存储介质。该分类器用训练数据获取方法包括以下步骤:图片检索意图获得步骤,根据用户输入获得图片检索意图;图片提供步骤,根据所述图片检索意图向用户提供展示图片;类别对应步骤,根据用户对所述图片的选择,确定所述图片检索意图与对应的图片实体分类类别对。根据本发明的实施方式,可以获得更多的高质量训练数据,有助于分类器性能的提高。

    一种图片搜索方法及装置

    公开(公告)号:CN107451194A

    公开(公告)日:2017-12-08

    申请号:CN201710527201.0

    申请日:2017-06-30

    CPC classification number: G06F17/30268

    Abstract: 本申请提供一种图片搜索方法及装置,包括:接收搜索词;根据所述搜索词从图片数据库和图集数据库中获取搜索结果项;对所述搜索结果项进行混合排序;展示所述排序后的搜索结果项。能够避免现有技术中没有使用搜索引擎技术对图集做建库和检索排序,必须预先针对高频搜索挖掘图集资源,可扩展性和时效性都较差;没有引入图集维度的特征参与排序,不能有效控制图集的相关性和质量;没有引入点击特征形成负反馈机制,低质图集不能在系统内自然沉降的问题。能够降低用户在搜索结果中选图的成本,同时满足用户对成套图片的需求。

    用于识别网站的方法、装置及服务器

    公开(公告)号:CN106844685B

    公开(公告)日:2020-07-28

    申请号:CN201710057271.4

    申请日:2017-01-26

    Abstract: 本申请公开了用于识别网站的方法、装置及服务器。该方法的一具体实施方式包括:获取待识别网站的网页集合;识别该网页集合中的异常网页,其中,该异常网页中的图片信息与文本信息的相关度小于相关度阈值;确定识别出的异常网页在该网页集合中的比率;根据所确定的比率,确定该待识别网站是否为垃圾网站。该实施方式提高了识别垃圾网站的效率。

    识别站点同源关系的方法、装置、设备和计算机存储介质

    公开(公告)号:CN107451180B

    公开(公告)日:2021-02-19

    申请号:CN201710442512.7

    申请日:2017-06-13

    Abstract: 本发明提供一种识别站点同源关系的方法、装置、设备和计算机存储介质,识别站点同源关系的方法包括:抓取页面并进行解析,获取页面信息;统计所获取的页面信息,得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点与各图片站点的字面名称中的至少一个;根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点与各图片站点的字面名称中的至少一个,识别具有同源关系的页面站点以及图片站点。本发明能够识别站点同源关系,并能够提高识别的准确率。

Patent Agency Ranking