计算文本间相似度的方法和装置

    公开(公告)号:CN103377239B

    公开(公告)日:2020-08-07

    申请号:CN201210126862.X

    申请日:2012-04-26

    摘要: 本发明实施例公开了一种计算文本间相似度的方法和装置,涉及计算机文本信息处理领域,能够提高文本间语义相似度计算的准确性。本发明实施例的计算文本间相似度的方法,包括:根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度;获取所述第一文本和第二文本中各个词语或词组的权重;根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度。

    一种相关搜索请求串推荐方法和系统

    公开(公告)号:CN103425643B

    公开(公告)日:2018-07-31

    申请号:CN201210147874.0

    申请日:2012-05-14

    IPC分类号: G06F17/30

    摘要: 本发明公开了种相关搜索请求串推荐方法和系统,该方法包括:获取有线用户和无线用户的历史搜索记录信息,并根据历史搜索记录信息分别确定有线用户以及无线用户的历史搜索请求串的热度和关联度;当接收到搜索请求时,根据有线用户以及无线用户的历史搜索请求串的热度和关联度以及搜索请求中携带的搜索请求串确定有线用户以及无线用户各历史搜索请求串的推荐分值;根据有线用户以及无线用户各历史搜索请求串的推荐分值确定各历史请求串的综合推荐分值,并根据综合推荐分值确定此次搜索请求的相关搜索请求串;将相关搜索请求串推荐给用户。在本发明中,在丰富了相关搜索请求串推荐的数据来源的同时,提高了相关搜索请求串推荐的准确性。

    一种相关搜索系统、方法及装置

    公开(公告)号:CN103218373B

    公开(公告)日:2018-02-06

    申请号:CN201210018974.3

    申请日:2012-01-20

    发明人: 高小平 宋国龙

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种相关搜索系统、方法及装置,本发明在互联网网络侧提供候选数据库外,还提供语义相关性数据库,该数据库中存储与关键词匹配的语义索引。当搜索引擎接收客户端发送的搜索请求后,解析得到关键词,不仅在候选数据库中查找匹配的字面索引并根据字面相似度计算得到字面搜索结果,而且在语义相关性数据库查找匹配的语义索引得到语义搜索结果,将字面搜索结果和语义搜索结果进行加权计算,得到最终搜索结果。这样,本发明提供的方法及系统不仅可以搜索到与关键词相匹配的字面结果,而且可以搜索到与关键词相匹配的语义结果,提高搜索准确度,提高用户的体验度。

    一种相关搜索请求串推荐方法和系统

    公开(公告)号:CN103425643A

    公开(公告)日:2013-12-04

    申请号:CN201210147874.0

    申请日:2012-05-14

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种相关搜索请求串推荐方法和系统,该方法包括:获取有线用户和无线用户的历史搜索记录信息,并根据历史搜索记录信息分别确定有线用户以及无线用户的历史搜索请求串的热度和关联度;当接收到搜索请求时,根据有线用户以及无线用户的历史搜索请求串的热度和关联度以及搜索请求中携带的搜索请求串确定有线用户以及无线用户各历史搜索请求串的推荐分值;根据有线用户以及无线用户各历史搜索请求串的推荐分值确定各历史请求串的综合推荐分值,并根据综合推荐分值确定此次搜索请求的相关搜索请求串;将相关搜索请求串推荐给用户。在本发明中,在丰富了相关搜索请求串推荐的数据来源的同时,提高了相关搜索请求串推荐的准确性。

    一种基于查询输入的热点事件确定方法和系统

    公开(公告)号:CN103226550B

    公开(公告)日:2018-05-29

    申请号:CN201210021488.7

    申请日:2012-01-31

    IPC分类号: G06F17/30

    摘要: 本发明实施方式提出了一种基于查询输入的热点事件确定方法和系统。该方法包括:确定每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数;基于每个查询输入在预定时间窗口中的每个单位时间粒度内的查询次数,确定每个查询输入在该预定时间窗口内的时新度;选择时新度符合预定条件的查询输入作为热点事件。应用本发明实施方式之后,能够自动从各种查询日志中基于时新度确定出热点事件。而且,本发明实施方式还能够给出热点事件对应的时新度值,方便人工参考和过滤,而且能够有效去除热点事件中的周期性事件或话题,保证了热点事件的时新性和准确性。