从查询日志中挖掘新词用于输入方法编辑器

    公开(公告)号:CN102171683B

    公开(公告)日:2017-12-01

    申请号:CN200980139988.7

    申请日:2009-10-04

    CPC classification number: G06F17/30731

    Abstract: 本文描述从查询日志中挖掘新词(包括汉字短语或集合)的技术。新词可被添加(或另外补充)到IME辞典中。基于市场(例如,中国市场)和/或通过语言来从日志中选择候选查询集。从这个集中,执行各过滤步骤以仅定位频繁使用的新词。例如,仅保留频繁查询用于将来处理,将来处理可包括基于长度(例如少于两个或多于八个汉字)过滤掉查询,和/或基于查询中的过多无用词来过滤掉查询。处理也可包括过滤掉作为较大查询的子串的查询,反之亦然。也描述了基于拼音的聚集和过滤,以及过滤掉辞典中已经处理了的查询。

Patent Agency Ranking