一种古汉语文本的一体化自动词法分析方法及系统
摘要:
本发明公开了一种古汉语文本的一体化自动词法分析方法,包括以下步骤:采用Word2Vec模型预训练得到具有语义特征的古汉语的字向量;将历朝历代文献中出现过的信息数据加入到古籍专名数据库中形成若干专有名词词条;调整Bi‑LSTM‑CRF神经网络模型的各参数,将所述最终训练语料预处理成模型可读的形式,加载到所述神经网络模型中,不断迭代学习,并对测试语料的标注结果进行自动评价。本发明采用断句、分词、词性标注一体化的标注方法,省去了词法分析多项子任务的重复标注过程,也避免了重复标注错误的多级扩散;本发明采用深度学习模型,可以自动学习到丰富的语言特征,省去了传统机器学习中人工定制特征模板的工作;本发明所述的标注模型采用GPU硬件加速,可以大大缩短模型训练的时间,效率比传统的机器学习模型要高很多。
0/0