一种基于标点处理的层次化汉语长句句法分析方法及装置

    公开(公告)号:CN100424685C

    公开(公告)日:2008-10-08

    申请号:CN200510086370.2

    申请日:2005-09-08

    Inventor: 宗成庆 李幸

    Abstract: 本发明涉及自然语言处理领域,特别是一种新的面向汉语长句的层次化句法分析方法及装置。该方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句和短语之间的句法关系以及子句和短语内部的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的常用一遍句法分析相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。

    一种基于标点处理的层次化汉语长句句法分析方法及装置

    公开(公告)号:CN1928854A

    公开(公告)日:2007-03-14

    申请号:CN200510086370.2

    申请日:2005-09-08

    Inventor: 宗成庆 李幸

    Abstract: 本发明涉及自然语言处理领域,特别是一种新的面向汉语长句的层次化句法分析方法及装置。该方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句和短语之间的句法关系以及子句和短语内部的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的常用一遍句法分析相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。

Patent Agency Ranking