-
公开(公告)号:CN108874785B
公开(公告)日:2020-11-03
申请号:CN201810555273.0
申请日:2018-06-01
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F40/44 , G06F40/58 , G06F40/279
Abstract: 本发明实施例提供一种翻译处理方法及系统,其中方法包括:获取源语言的语句;将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;根据所述向量序列逐词地预测目标语言中相应的候选词;根据预测得到的候选词生成目标语言的语句,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词。本发明实施例使得数据稀疏的语言对可以获得更佳的翻译质量。
-
公开(公告)号:CN108255939B
公开(公告)日:2020-02-14
申请号:CN201711297472.8
申请日:2017-12-08
Applicant: 北京搜狗科技发展有限公司 , 清华大学
IPC: G06F16/953 , G06F40/40
Abstract: 本发明实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。本发明实施例可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性,且可以提高翻译搜索结果对于用户的吸引力,从而可以进一步提高翻译搜索结果的点击率。
-
公开(公告)号:CN108255939A
公开(公告)日:2018-07-06
申请号:CN201711297472.8
申请日:2017-12-08
Applicant: 北京搜狗科技发展有限公司 , 清华大学
Abstract: 本发明实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。本发明实施例可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性,且可以提高翻译搜索结果对于用户的吸引力,从而可以进一步提高翻译搜索结果的点击率。
-
公开(公告)号:CN107273363A
公开(公告)日:2017-10-20
申请号:CN201710335652.4
申请日:2017-05-12
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/28
Abstract: 本发明提供一种语言文本翻译方法及系统。该方法包括:根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。本发明可以将任意先验知识融入翻译模型中,从而提高机器翻译的准确性和可靠性。
-
公开(公告)号:CN105512224A
公开(公告)日:2016-04-20
申请号:CN201510857213.0
申请日:2015-11-30
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明涉及一种基于用户行为模式的搜索满意度自动评估方法,属于信息检索领域,该方法包括:获取用于搜索满意度自动评估的搜索引擎查询日志;对获取的两种搜索引擎查询日志进行预处理;从处理后的搜索引擎查询日志挖掘出用于满意度自动评估的光标位置序列;对满意度评估分类器进行训练;将不包含满意度反馈信息的搜索引擎查询日志输入到该分类器中,分类器的输出即为搜索满意度自动评估结果。本发明方法通过对用户在搜索过程中的交互日志的分析,对比被用户反馈为“满意”和“不满意”的搜索引擎查询日志中所体现出的光标位置序列差异,挖掘出可以高效区分用户不同满意程度的光标位置序列,以达到对搜索满意度进行自动评估的目的。
-
公开(公告)号:CN107273363B
公开(公告)日:2019-11-22
申请号:CN201710335652.4
申请日:2017-05-12
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F17/28
Abstract: 本发明提供一种语言文本翻译方法及系统。该方法包括:根据预设的翻译候选集合确定规则,确定源语言文本对应的翻译候选集合,所述翻译候选集合包括源语言文本的多个翻译文本;所述源语言文本为待翻译的语言文本;基于所述翻译候选集合、预设的翻译模型及预设的先验知识模型,确定第一概率分布及第二概率分布;所述第一概率分布用于指示所述翻译文本符合先验知识模型的概率,所述第二概率分布用于指示所述翻译文本符合翻译模型的概率;基于所述第一概率分布及所述第二概率分布,从所述翻译候选集合中确定所述源语言文本的翻译文本。本发明可以将任意先验知识融入翻译模型中,从而提高机器翻译的准确性和可靠性。
-
公开(公告)号:CN109145213A
公开(公告)日:2019-01-04
申请号:CN201810962635.8
申请日:2018-08-22
Applicant: 清华大学
IPC: G06F16/9535 , G06F16/33
Abstract: 本公开涉及一种基于历史信息的查询推荐方法及装置,包括:响应于当前查询会话中当前查询的查询操作,获取所述当前查询会话的多个历史查询的历史查询词以及与所述多个历史查询对应的目标文档的标题信息,所述目标文档为历史查询中被浏览过的文档;根据所述目标文档的标题信息及所述历史查询词,生成与当前查询会话对应的上下文向量;获取所述当前查询的查询词相匹配的多个候选查询词;根据所述上下文向量,确定所述多个候选查询词的推荐分值;根据所述推荐分值,从所述多个候选查询词中确定所述当前查询的推荐查询词。根据本公开提供的一种基于历史信息的查询推荐方法及装置,能够提高推荐查询词的精准度。
-
公开(公告)号:CN109086417A
公开(公告)日:2018-12-25
申请号:CN201810885991.4
申请日:2018-08-06
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本公开涉及一种搜索评价方法及装置,所述方法包括:根据搜索结果的相关性评分和点击必要性评分,确定搜索结果被点击的概率;根据搜索结果的摘要的深度、目标页面的深度以及被点击的概率,确定搜索结果的期望浏览深度;根据搜索结果的期望浏览深度,确定搜索结果的期望浏览起始深度;根据搜索结果的期望浏览起始深度、摘要的深度、目标页面的深度、相关性评分以及浏览深度分布函数,确定搜索结果的收益;根据搜索结果的收益,确定搜索页面的评分。根据本公开的实施例的搜索评价方法及装置,在确定搜索页面的评分时,将搜索结果的摘要的深度和目标页面的深度考虑到指标的设计中,可较好地反映用户的使用体验。
-
-
-
-
-
-
-