- 专利标题: 基于互联网信息的输入法词频库的生成方法和系统
- 专利标题(英): Method and system for generating input-method word frequency base based on internet information
-
申请号: CN200610086577.4申请日: 2006-06-30
-
公开(公告)号: CN1936893B公开(公告)日: 2010-05-12
- 发明人: 佟子健 , 郭奇
- 申请人: 北京搜狗科技发展有限公司
- 申请人地址: 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间
- 专利权人: 北京搜狗科技发展有限公司
- 当前专利权人: 北京搜狗科技发展有限公司
- 当前专利权人地址: 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间
- 代理机构: 北京集佳知识产权代理有限公司
- 代理商 逯长明
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开了一种基于互联网信息输入法词频库的生成方法,包括:通过网络爬虫技术获取互联网的网页;对网页信息进行分词处理;对词条进行词频统计,并保存形成互联网词频库。由于本发明以公开的、实时变化的互联网信息为输入法系统的词频统计来源,生成的词频信息是最新和最佳的;并可以通过各种简单方便的方式更新至输入法系统的系统词频库,使得系统词频库中的词频信息能够与互联网上字词的词频信息保持一致,从而提高了使用者的首选词的命中率,提高了输入速度和效率。
公开/授权文献
- CN1936893A 基于互联网信息的输入法词频库的生成方法和系统 公开/授权日:2007-03-28