基于Transformer的中文文本信息缺失的补全方法

发明授权

CN111708882B 基于Transformer的中文文本信息缺失的补全方法有权

请登陆查看更多内容

专利标题： 基于Transformer的中文文本信息缺失的补全方法
申请号： CN202010476968.7

申请日： 2020-05-29
公开(公告)号： CN111708882B

公开(公告)日： 2022-09-30
发明人: 黑新宏 , 焦瑞 , 朱磊 , 赵钦 , 姬文江 , 孟海宁 , 姚燕妮 , 董林靖 , 彭伟
申请人： 西安理工大学
申请人地址： 陕西省西安市碑林区金花南路5号
专利权人： 西安理工大学
当前专利权人： 西安理工大学
当前专利权人地址： 陕西省西安市碑林区金花南路5号
代理机构： 西安弘理专利事务所
代理商 宁文涛
主分类号： G06F16/35
IPC分类号： G06F16/35 ; G06F40/289 ; G06F40/30

摘要：

本发明公开了基于Transformer编码器的中文文本信息缺失的补全方法，对待处理的中文文本公开语料的人工预处理，通过计算机识别句号，将文本分割为以句为分割的大量短句语料，短句通过minibatch的方式转变为Bert词向量，产生的词向量将传入SVM进行文本二分类任务，模型将通过训练决定缺失位置的信息补全结果；采用大量遮盖[mask]标签产生的噪声，对模型进行训练，使得模型具有文本的生成能力，对文本缺失信息位置生成机器预测的缺失文本结果；本发明完成对中文文本的信息缺失的检测、信息缺失的补全任务，来帮助中文自然语言处理的文本预处理更加规范，使中文自然语言处理任务准确率进一步提高。

公开/授权文献

CN111708882A 基于Transformer的中文文本信息缺失的补全方法公开/授权日：2020-09-25

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/35	..••聚类；分类