-
公开(公告)号:CN111708882A
公开(公告)日:2020-09-25
申请号:CN202010476968.7
申请日:2020-05-29
申请人: 西安理工大学
IPC分类号: G06F16/35 , G06F40/289 , G06F40/30
摘要: 本发明公开了基于Transformer编码器的中文文本信息缺失的补全方法,对待处理的中文文本公开语料的人工预处理,通过计算机识别句号,将文本分割为以句为分割的大量短句语料,短句通过minibatch的方式转变为Bert词向量,产生的词向量将传入SVM进行文本二分类任务,模型将通过训练决定缺失位置的信息补全结果;采用大量遮盖[mask]标签产生的噪声,对模型进行训练,使得模型具有文本的生成能力,对文本缺失信息位置生成机器预测的缺失文本结果;本发明完成对中文文本的信息缺失的检测、信息缺失的补全任务,来帮助中文自然语言处理的文本预处理更加规范,使中文自然语言处理任务准确率进一步提高。
-
公开(公告)号:CN111597350A
公开(公告)日:2020-08-28
申请号:CN202010365826.3
申请日:2020-04-30
申请人: 西安理工大学
IPC分类号: G06F16/36 , G06F16/35 , G06F40/247 , G06F40/279
摘要: 本发明公开了一种基于深度学习的轨道交通事件知识图谱构建方法;采用词典匹配模式加人工标注方式构建事件识别模型训练数据;采用BERT-BiLSTM-CRF算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型,自动抽取事件之间的关系。提升了轨道交通建设设计工程信息化,减少了构建图谱的工作量。
-
公开(公告)号:CN110928963A
公开(公告)日:2020-03-27
申请号:CN201911192612.4
申请日:2019-11-28
申请人: 西安理工大学 , 深圳市腾讯计算机系统有限公司
IPC分类号: G06F16/28
摘要: 本发明提供了一种针对运维业务数据表的列级权限知识图谱构建方法,首先对问题领域进行需求分析,形成该领域Schema,然后抽取了原有权限系统的数据模型,补充和完善Schema;人工梳理出结构化的列级权限数据文档,并进行知识抽取。接着分析原有运维业务系统的基于表级的权限数据,构造受表级不受列级控制的数据权限知识,并与之前抽取的知识进行合并,最后进行知识存储,得到最终的数据库表列级权限数据知识图谱。无需改动原有的运维业务数据本身的数据模式,不会影响原有运维业务系统的正常运转,同时大大减少了工作量的同时,当增加新类型的数据和关系时,无需修改设计,适用于运维业务数据实时变化和数据权限实时变动的场景。
-
公开(公告)号:CN110888798A
公开(公告)日:2020-03-17
申请号:CN201910973406.0
申请日:2019-10-14
申请人: 西安理工大学
摘要: 本发明公开了一种基于图卷积神经网络的软件缺陷预测方法,利用GCN算法训练模型对输入的代码文件进行缺陷类型的预测。本发明通过Bert模型将软件的源代码文件进行特征提取,并通过构建抽象语法树实现了源代码中的文件之间的关联,然后使用关联算法Apriori将代码中可能具有缺陷传递的文件进行关联,最后将源文件的特征向量与特征向量之间的关联关系作为邻接矩阵作为输入,实现了对GCN模型的训练。当判断软件代码文件是否存在缺陷时,将代码文件自动转化为其对应的特征向量向量作为模型的输入,GCN模型输出代码文件可能存在缺陷,从而大大减少了测试人员的工作量。
-
公开(公告)号:CN110059179A
公开(公告)日:2019-07-26
申请号:CN201910168707.6
申请日:2019-03-06
申请人: 西安理工大学
摘要: 本发明公开了一种基于深度学习的歌曲文本命名实体识别方法,利用Bi-LSTM-CRF算法训练模型对输入的语料进行歌者信息的提取、生成歌者词典,同时实现主动学习并对歌者词典进行自动更新,最后依据更新的词库反复训练模型提高其识别的准确率,将深度学习的方法应用到音乐领域,当输入一段文本时能够对文本中的歌者信息进行提取,同时采用了机器学习中自学习模式对提取的信息在词典中进行查找,实现动态地对词典进行更新,提出了一种训练准确率更高的模型。
-
-
-
-