- 专利标题: 基于Transformer的中文文本信息缺失的补全方法
-
申请号: CN202010476968.7申请日: 2020-05-29
-
公开(公告)号: CN111708882B公开(公告)日: 2022-09-30
- 发明人: 黑新宏 , 焦瑞 , 朱磊 , 赵钦 , 姬文江 , 孟海宁 , 姚燕妮 , 董林靖 , 彭伟
- 申请人: 西安理工大学
- 申请人地址: 陕西省西安市碑林区金花南路5号
- 专利权人: 西安理工大学
- 当前专利权人: 西安理工大学
- 当前专利权人地址: 陕西省西安市碑林区金花南路5号
- 代理机构: 西安弘理专利事务所
- 代理商 宁文涛
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F40/289 ; G06F40/30
摘要:
本发明公开了基于Transformer编码器的中文文本信息缺失的补全方法,对待处理的中文文本公开语料的人工预处理,通过计算机识别句号,将文本分割为以句为分割的大量短句语料,短句通过minibatch的方式转变为Bert词向量,产生的词向量将传入SVM进行文本二分类任务,模型将通过训练决定缺失位置的信息补全结果;采用大量遮盖[mask]标签产生的噪声,对模型进行训练,使得模型具有文本的生成能力,对文本缺失信息位置生成机器预测的缺失文本结果;本发明完成对中文文本的信息缺失的检测、信息缺失的补全任务,来帮助中文自然语言处理的文本预处理更加规范,使中文自然语言处理任务准确率进一步提高。
公开/授权文献
- CN111708882A 基于Transformer的中文文本信息缺失的补全方法 公开/授权日:2020-09-25