一种自学习的中文地址判重方法

    公开(公告)号:CN101477570A

    公开(公告)日:2009-07-08

    申请号:CN200910095377.9

    申请日:2009-01-12

    Applicant: 浙江大学

    Abstract: 本发明公开了一种自学习的中文地址判重方法。本发明在对中文地址进行判重时,采用自学习的方法。首先处理所有待判重的地址数据,使用规范度计算公式计算出各个地址的规范度,并对符合规范条件的地址提取冗余信息,并计算冗余信息可信度,将可信的冗余信息用于后续的地址数据替换,判重上。本发明方法不依赖领域知识,能够在保证解析精度的前提下,显著降低地址判重中误判和漏判的比例。

    实时垂直搜索引擎对象缓存优化方法

    公开(公告)号:CN101667198B

    公开(公告)日:2012-05-23

    申请号:CN200910152877.1

    申请日:2009-09-18

    Applicant: 浙江大学

    Abstract: 本发明公开了一种实时垂直搜索引擎对象缓存优化方法。利用对象及对象属性之间的关系,预测不同对象的热门度趋势,计算不同对象的缓存权重;利用用户对同一对象查询符合泊松过程以及数据抓取为查询驱动的特点,计算抓取配额在各个对象之间的初始分配和调整方法;利用数据的真实变化频率符合泊松过程的特点,计算抓取配额在各个对象之间的动态平衡方法。本发明增加了垂直搜索引擎对数据站点抓取配额的利用率,增加了实时垂直搜索引擎用户的体验,实现了实时垂直搜索引擎对不同数据站点的自适应配置。

    实时垂直搜索引擎对象缓存优化方法

    公开(公告)号:CN101667198A

    公开(公告)日:2010-03-10

    申请号:CN200910152877.1

    申请日:2009-09-18

    Applicant: 浙江大学

    Abstract: 本发明公开了一种实时垂直搜索引擎对象缓存优化方法。利用对象及对象属性之间的关系,预测不同对象的热门度趋势,计算不同对象的缓存权重;利用用户对同一对象查询符合泊松过程以及数据抓取为查询驱动的特点,计算抓取配额在各个对象之间的初始分配和调整方法;利用数据的真实变化频率符合泊松过程的特点,计算抓取配额在各个对象之间的动态平衡方法。本发明增加了垂直搜索引擎对数据站点抓取配额的利用率,增加了实时垂直搜索引擎用户的体验,实现了实时垂直搜索引擎对不同数据站点的自适应配置。

Patent Agency Ranking