-
公开(公告)号:CN109446534B
公开(公告)日:2020-07-31
申请号:CN201811109824.7
申请日:2018-09-21
Applicant: 清华大学 , 北京搜狗科技发展有限公司
Abstract: 本发明实施例提供一种机器翻译方法及装置,其中方法包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果。本发明实施例能够解决机器翻译对上下文的依赖,显著提高翻译质量。
-
公开(公告)号:CN108874785A
公开(公告)日:2018-11-23
申请号:CN201810555273.0
申请日:2018-06-01
Applicant: 清华大学 , 北京搜狗科技发展有限公司
Abstract: 本发明实施例提供一种翻译处理方法及系统,其中方法包括:获取源语言的语句;将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;根据所述向量序列逐词地预测目标语言中相应的候选词;根据预测得到的候选词生成目标语言的语句,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词。本发明实施例使得数据稀疏的语言对可以获得更佳的翻译质量。
-
公开(公告)号:CN109241243B
公开(公告)日:2020-11-24
申请号:CN201811004434.3
申请日:2018-08-30
Applicant: 清华大学
IPC: G06F16/33 , G06F16/9535
Abstract: 本公开是关于一种候选文档排序方法及装置,该方法包括:根据当前查询会话的查询关键词,从数据库中获取与所述查询关键词匹配的第一候选文档;根据所述当前查询会话的数据以及历史查询会话的数据,确定多个训练簇中与所述当前查询会话匹配的第一训练簇;根据与所述第一训练簇对应的马尔可夫模型,对所述第一候选文档进行排序处理,获得所述第一候选文档的排序列表。本公开能够确保选择与当前查询会话的关键词和/或候选文档相关的马尔可夫模型来对候选文档进行排序,使得候选文档的排序能够更加趋向于用户的查询期望。
-
公开(公告)号:CN109460458B
公开(公告)日:2020-09-29
申请号:CN201811267746.3
申请日:2018-10-29
Applicant: 清华大学
IPC: G06F16/332 , G06F16/35 , G06F16/36
Abstract: 本公开涉及一种查询改写意图的预测方法及装置。该查询改写意图的预测方法包括:将待识别的查询数据输入预测模型进行处理,得到所述待识别的查询数据对应的至少一个意图;其中,所述待识别的查询数据包括原始查询词和改写查询词;根据所述待识别的查询数据对应的至少一个意图,得到所述待识别的查询数据对应的查询改写意图。本公开的查询改写意图的预测方法及装置,能够有效的解决查询数据稀疏造成查询理解准确率较低的问题,从而实现准确的预测用户的查询改写意图,提高用户的使用体验。
-
公开(公告)号:CN110232193B
公开(公告)日:2020-08-28
申请号:CN201910349677.9
申请日:2019-04-28
Applicant: 清华大学 , 北京搜狗科技发展有限公司
IPC: G06F40/58 , G06F40/289
Abstract: 本发明实施例提供一种结构化文本翻译方法及装置,包括:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。本发明实施例通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。
-
公开(公告)号:CN109145213B
公开(公告)日:2020-07-28
申请号:CN201810962635.8
申请日:2018-08-22
Applicant: 清华大学
IPC: G06F16/9535 , G06F16/33
Abstract: 本公开涉及一种基于历史信息的查询推荐方法及装置,包括:响应于当前查询会话中当前查询的查询操作,获取所述当前查询会话的多个历史查询的历史查询词以及与所述多个历史查询对应的目标文档的标题信息,所述目标文档为历史查询中被浏览过的文档;根据所述目标文档的标题信息及所述历史查询词,生成与当前查询会话对应的上下文向量;获取所述当前查询的查询词相匹配的多个候选查询词;根据所述上下文向量,确定所述多个候选查询词的推荐分值;根据所述推荐分值,从所述多个候选查询词中确定所述当前查询的推荐查询词。根据本公开提供的一种基于历史信息的查询推荐方法及装置,能够提高推荐查询词的精准度。
-
公开(公告)号:CN110232193A
公开(公告)日:2019-09-13
申请号:CN201910349677.9
申请日:2019-04-28
Applicant: 清华大学 , 北京搜狗科技发展有限公司
Abstract: 本发明实施例提供一种结构化文本翻译方法及装置,包括:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。本发明实施例通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。
-
公开(公告)号:CN109460458A
公开(公告)日:2019-03-12
申请号:CN201811267746.3
申请日:2018-10-29
Applicant: 清华大学
IPC: G06F16/332 , G06F16/35 , G06F16/36
Abstract: 本公开涉及一种查询改写意图的预测方法及装置。该查询改写意图的预测方法包括:将待识别的查询数据输入预测模型进行处理,得到所述待识别的查询数据对应的至少一个意图;其中,所述待识别的查询数据包括原始查询词和改写查询词;根据所述待识别的查询数据对应的至少一个意图,得到所述待识别的查询数据对应的查询改写意图。本公开的查询改写意图的预测方法及装置,能够有效的解决查询数据稀疏造成查询理解准确率较低的问题,从而实现准确的预测用户的查询改写意图,提高用户的使用体验。
-
公开(公告)号:CN109446534A
公开(公告)日:2019-03-08
申请号:CN201811109824.7
申请日:2018-09-21
Applicant: 清华大学 , 北京搜狗科技发展有限公司
Abstract: 本发明实施例提供一种机器翻译方法及装置,其中方法包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果。本发明实施例能够解决机器翻译对上下文的依赖,显著提高翻译质量。
-
公开(公告)号:CN109241243A
公开(公告)日:2019-01-18
申请号:CN201811004434.3
申请日:2018-08-30
Applicant: 清华大学
IPC: G06F16/33 , G06F16/9535
Abstract: 本公开是关于一种候选文档排序方法及装置,该方法包括:根据当前查询会话的查询关键词,从数据库中获取与所述查询关键词匹配的第一候选文档;根据所述当前查询会话的数据以及历史查询会话的数据,确定多个训练簇中与所述当前查询会话匹配的第一训练簇;根据与所述第一训练簇对应的马尔可夫模型,对所述第一候选文档进行排序处理,获得所述第一候选文档的排序列表。本公开能够确保选择与当前查询会话的关键词和/或候选文档相关的马尔可夫模型来对候选文档进行排序,使得候选文档的排序能够更加趋向于用户的查询期望。
-
-
-
-
-
-
-
-
-