-
公开(公告)号:CN104376065A
公开(公告)日:2015-02-25
申请号:CN201410636024.6
申请日:2014-11-05
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30663 , G06F17/30979
Abstract: 本发明实施例提供一种检索词重要度的确定方法和装置。该方法包括:接收用户输入的查询语句,提取该查询语句中的检索词;获取所述检索词的特征信息;将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。本方案结合用户输入的查询语句中检索词的特征信息,能够动态地得到用户输入的查询语句中不同特征信息的检索词的重要性权值,提高了得到的用户输入的查询语句中检索词的重要性权值的准确率。
-
公开(公告)号:CN104281716A
公开(公告)日:2015-01-14
申请号:CN201410601168.8
申请日:2014-10-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种平行语料的对齐方法及装置,其中,平行语料的对齐方法包括:获得平行语料,并对平行语料进行预处理,以获得预处理后的句对;利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典。上述平行语料的对齐方法及装置实施例,由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。
-
公开(公告)号:CN104281565A
公开(公告)日:2015-01-14
申请号:CN201410521385.6
申请日:2014-09-30
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/27
Abstract: 本发明实施例公开了一种语义词典构建方法和装置。所述语义词典构建方法包括:从用户的网络日志中提取具有相同或者相近语义的句子;根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。本发明实施例提供的语义词典构建方法和装置通过对用户的网络日志的挖掘高效的构建了包含同义词数据的语义词典。
-
-