基于Transformer的中文文本信息缺失的补全方法
摘要:
本发明公开了基于Transformer编码器的中文文本信息缺失的补全方法,对待处理的中文文本公开语料的人工预处理,通过计算机识别句号,将文本分割为以句为分割的大量短句语料,短句通过minibatch的方式转变为Bert词向量,产生的词向量将传入SVM进行文本二分类任务,模型将通过训练决定缺失位置的信息补全结果;采用大量遮盖[mask]标签产生的噪声,对模型进行训练,使得模型具有文本的生成能力,对文本缺失信息位置生成机器预测的缺失文本结果;本发明完成对中文文本的信息缺失的检测、信息缺失的补全任务,来帮助中文自然语言处理的文本预处理更加规范,使中文自然语言处理任务准确率进一步提高。
公开/授权文献
0/0