生成同义词对齐词典的方法及装置

    公开(公告)号:CN104331398B

    公开(公告)日:2018-07-13

    申请号:CN201410601632.3

    申请日:2014-10-30

    Abstract: 本发明提供一种生成同义词对齐词典的方法及装置,上述方法包括:根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息;根据所述替换决策树模型对已有的对齐词典进行过滤,生成第一同义词对齐词典。本发明提供的生成同义词对齐词典的方法及装置,通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型,得到了能够更精确地衡量各个特征之间的关系的模型,并通过根据替换决策树模型对已有的对齐词典进行过滤,从而能够得到更多的优等替换词条。

    平行语料的对齐方法及装置

    公开(公告)号:CN104281716B

    公开(公告)日:2017-10-03

    申请号:CN201410601168.8

    申请日:2014-10-30

    Abstract: 本发明公开了一种平行语料的对齐方法及装置,其中,平行语料的对齐方法包括:获得平行语料,并对平行语料进行预处理,以获得预处理后的句对;利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典。上述平行语料的对齐方法及装置实施例,由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。

    生成同义词对齐词典的方法及装置

    公开(公告)号:CN104331398A

    公开(公告)日:2015-02-04

    申请号:CN201410601632.3

    申请日:2014-10-30

    Abstract: 本发明提供一种生成同义词对齐词典的方法及装置,上述方法包括:根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息;根据所述替换决策树模型对已有的对齐词典进行过滤,生成第一同义词对齐词典。本发明提供的生成同义词对齐词典的方法及装置,通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型,得到了能够更精确地衡量各个特征之间的关系的模型,并通过根据替换决策树模型对已有的对齐词典进行过滤,从而能够得到更多的优等替换词条。

    替换词典生成方法及装置

    公开(公告)号:CN104484377B

    公开(公告)日:2017-11-03

    申请号:CN201410746317.X

    申请日:2014-12-09

    Abstract: 本发明公开了一种替换词典生成方法及装置,其中方法包括:获取句对资源,利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典;对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,其中,所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语;根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典,提高了替换词典的准确率和召回率。

    替换词典生成方法及装置

    公开(公告)号:CN104484377A

    公开(公告)日:2015-04-01

    申请号:CN201410746317.X

    申请日:2014-12-09

    CPC classification number: G06F17/30737

    Abstract: 本发明公开了一种替换词典生成方法及装置,其中方法包括:获取句对资源,利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典;对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,其中,所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语;根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典,提高了替换词典的准确率和召回率。

    语义词典构建方法和装置

    公开(公告)号:CN104281565B

    公开(公告)日:2017-09-05

    申请号:CN201410521385.6

    申请日:2014-09-30

    Abstract: 本发明实施例公开了一种语义词典构建方法和装置。所述语义词典构建方法包括:从用户的网络日志中提取具有相同或者相近语义的句子;根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。本发明实施例提供的语义词典构建方法和装置通过对用户的网络日志的挖掘高效的构建了包含同义词数据的语义词典。

    平行语料的对齐方法及装置

    公开(公告)号:CN104281716A

    公开(公告)日:2015-01-14

    申请号:CN201410601168.8

    申请日:2014-10-30

    CPC classification number: G06F17/30864

    Abstract: 本发明公开了一种平行语料的对齐方法及装置,其中,平行语料的对齐方法包括:获得平行语料,并对平行语料进行预处理,以获得预处理后的句对;利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典。上述平行语料的对齐方法及装置实施例,由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。

    语义词典构建方法和装置

    公开(公告)号:CN104281565A

    公开(公告)日:2015-01-14

    申请号:CN201410521385.6

    申请日:2014-09-30

    Abstract: 本发明实施例公开了一种语义词典构建方法和装置。所述语义词典构建方法包括:从用户的网络日志中提取具有相同或者相近语义的句子;根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。本发明实施例提供的语义词典构建方法和装置通过对用户的网络日志的挖掘高效的构建了包含同义词数据的语义词典。

Patent Agency Ranking