-
公开(公告)号:CN103246714A
公开(公告)日:2013-08-14
申请号:CN201310149482.2
申请日:2013-04-26
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
IPC: G06F17/30
Abstract: 本发明提供一种基于错误模式挖掘的中文搜索引擎查询纠错方法。该方法通过挖掘搜索引擎查询日志中的错误模式并建模,有效的改善了查询纠错系统中查询及其正确形式之间转换概率的预估精度;利用隐马尔科夫模型进行查询纠错,通过隐含状态的转移实现对查询的切分和纠错,提高了查询纠错的准确率和速度。
-
公开(公告)号:CN103177126A
公开(公告)日:2013-06-26
申请号:CN201310134933.5
申请日:2013-04-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种用于搜索引擎的色情用户查询识别方法,该方法包括基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型,以及利用该训练好的分类模型判断待识别的用户查询是否为色请用户查询。其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征以及用户属于色情查询和非色情查询的概率。该方法不需要基于搜索引擎的查询结果来识别色情查询,而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。
-
公开(公告)号:CN103177126B
公开(公告)日:2015-07-29
申请号:CN201310134933.5
申请日:2013-04-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种用于搜索引擎的色情用户查询识别方法,该方法包括基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型,以及利用该训练好的分类模型判断待识别的用户查询是否为色请用户查询。其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征以及用户属于色情查询和非色情查询的概率。该方法不需要基于搜索引擎的查询结果来识别色情查询,而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。
-
公开(公告)号:CN103246714B
公开(公告)日:2015-05-27
申请号:CN201310149482.2
申请日:2013-04-26
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
IPC: G06F17/30
Abstract: 本发明提供一种基于错误模式挖掘的中文搜索引擎查询纠错方法。该方法通过挖掘搜索引擎查询日志中的错误模式并建模,有效的改善了查询纠错系统中查询及其正确形式之间转换概率的预估精度;利用隐马尔科夫模型进行查询纠错,通过隐含状态的转移实现对查询的切分和纠错,提高了查询纠错的准确率和速度。
-
公开(公告)号:CN102867040A
公开(公告)日:2013-01-09
申请号:CN201210320575.2
申请日:2012-08-31
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
Abstract: 本发明涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明针对中文搜索引擎混杂语言查询的特点,采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。
-
公开(公告)号:CN102867040B
公开(公告)日:2015-03-18
申请号:CN201210320575.2
申请日:2012-08-31
Applicant: 中国科学院计算技术研究所 , 人民搜索网络股份公司
Abstract: 本发明涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明针对中文搜索引擎混杂语言查询的特点,采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。
-
-
-
-
-