-
公开(公告)号:CN103064878A
公开(公告)日:2013-04-24
申请号:CN201210468749.X
申请日:2012-11-19
Applicant: 北京大学
Abstract: 本发明提供一种快速序列标注方法,属于语言信息处理领域。所述方法基于随机梯度下降(SGD)在线学习算法,适合大规模语料训练;在训练过程中,针对特征频率,对二阶海森矩阵采用对角化近似,即:利用特征频率高低对对角元素赋予不同权重,与已有的二阶海森矩阵近似算法比较,具有计算代价小的特点;在原有SGD算法的基础上,显著提高了训练速度,且效果好。本方法可以用于语言信息处理的不同层次,包括汉语分词、词性标注和命名实体识别等。
-
公开(公告)号:CN103064878B
公开(公告)日:2016-04-06
申请号:CN201210468749.X
申请日:2012-11-19
Applicant: 北京大学
Abstract: 本发明提供一种序列标注方法,属于语言信息处理领域。所述方法基于随机梯度下降(SGD)在线学习算法,适合大规模语料训练;在训练过程中,针对特征频率,对二阶海森矩阵采用对角化近似,即:利用特征频率高低对对角元素赋予不同权重,与已有的二阶海森矩阵近似算法比较,具有计算代价小的特点;在原有SGD算法的基础上,显著提高了训练速度,且效果好。本方法可以用于语言信息处理的不同层次,包括汉语分词、词性标注和命名实体识别等。
-