-
公开(公告)号:CN1209726C
公开(公告)日:2005-07-06
申请号:CN02100550.8
申请日:2002-01-31
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明为一种互联网上镜像和准镜像网站的识别方法。该方法是通过对已知的大量网站首页进行相似度判定,选取候选镜像网站组;再通过对候选镜像网站组中的网站上内容进行抽样比较统计,通过设定相似度阈值的方法获得镜像和准镜像网站。该方法对于需要大量采集互联网上信息的系统(如搜索引擎)具有十分重要的意义,可以避免这类系统对雷同信息的重复获取,节省网络资源和本地资源,提高系统服务的质量和效率。
-
公开(公告)号:CN1435775A
公开(公告)日:2003-08-13
申请号:CN02100550.8
申请日:2002-01-31
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明为一种互联网上镜像和准镜像网站的识别方法。该方法是通过对已知的大量网站首页进行相似度判定,选取候选镜像网站组;再通过对候选镜像网站组中的网站上内容进行抽样比较统计,通过设定相似度阈值的方法获得镜像和准镜像网站。该方法对于需要大量采集互联网上信息的系统(如搜索引擎)具有十分重要的意义,可以避免这类系统对雷同信息的重复获取,节省网络资源和本地资源,提高系统服务的质量和效率。
-
公开(公告)号:CN1253815C
公开(公告)日:2006-04-26
申请号:CN00124352.7
申请日:2000-09-08
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 一种提高计算机在进行中文数据识别时相关度的方法,由计算机的识别模块对输入模块输入的中文信息进行处理并查找出姓氏关键字;并由中央处理器对查找出的姓氏关键字进行判断,判断该姓氏关键字是否为存储模块中的关键字,如不属于计算机存储模块中的纯姓氏存储模块,中央处理器再对其进行判断,最终提高中文数据识别相关度。本发明能够有效地从被识别对象中快捷识别中文姓名,获得较高地识别准确性,而且能够通过相关度的调整、排序,获得更准确的高质量识别结果。
-
公开(公告)号:CN1342942A
公开(公告)日:2002-04-03
申请号:CN00124352.7
申请日:2000-09-08
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 一种中文姓名的计算机识别及检索方法,包括用于计算机检索的数据源,该方法的步骤包括从所述的数据源中随机选取学习数据源,根据姓名识别规则库的内容对分析的数据源进行姓名识别,再创建索引,提供检索结果。姓名识别规则库包括姓氏配置文件、电子版高频词词典和姓氏前、后的高频单字文件。本发明能够有效地从被检索对象中快捷地识别中文姓名,获得较高的识别准确性,而且能够通过相关度的调整、排序,获得更准确的高质量检索结果。
-
-
-