基于Transformer的中文文本信息缺失的补全方法

    公开(公告)号:CN111708882B

    公开(公告)日:2022-09-30

    申请号:CN202010476968.7

    申请日:2020-05-29

    摘要: 本发明公开了基于Transformer编码器的中文文本信息缺失的补全方法,对待处理的中文文本公开语料的人工预处理,通过计算机识别句号,将文本分割为以句为分割的大量短句语料,短句通过minibatch的方式转变为Bert词向量,产生的词向量将传入SVM进行文本二分类任务,模型将通过训练决定缺失位置的信息补全结果;采用大量遮盖[mask]标签产生的噪声,对模型进行训练,使得模型具有文本的生成能力,对文本缺失信息位置生成机器预测的缺失文本结果;本发明完成对中文文本的信息缺失的检测、信息缺失的补全任务,来帮助中文自然语言处理的文本预处理更加规范,使中文自然语言处理任务准确率进一步提高。

    基于Transformer的土木建筑信息领域自然语言问题生成方法

    公开(公告)号:CN112559702B

    公开(公告)日:2022-09-30

    申请号:CN202011249217.8

    申请日:2020-11-10

    IPC分类号: G06F16/332 G06F16/35 G06N3/08

    摘要: 本发明公开了基于Transformer的土木建筑信息领域自然语言问题生成方法,本模型通过分析Bert模型中每层学习到的信息分布,结合训练数据的有限特性,对Transformer的不同模块进行不同语料的训练,提出低层网络用于训练句法语法特性,高层网络用于训练获取语义特性的机制。然后,采用UniLM思想对Bert进行下游任务的微调,提升模型在土木建筑信息领域的自然语言文本生成能力。本方法提出的模型在土木建筑信息领域生成问题具有较高的可行性和有效性,并且达到了较高的自然语言问题生成水准。

    基于Transformer的土木建筑信息领域自然语言问题生成方法

    公开(公告)号:CN112559702A

    公开(公告)日:2021-03-26

    申请号:CN202011249217.8

    申请日:2020-11-10

    IPC分类号: G06F16/332 G06F16/35 G06N3/08

    摘要: 本发明公开了基于Transformer的土木建筑信息领域自然语言问题生成方法,本模型通过分析Bert模型中每层学习到的信息分布,结合训练数据的有限特性,对Transformer的不同模块进行不同语料的训练,提出低层网络用于训练句法语法特性,高层网络用于训练获取语义特性的机制。然后,采用UniLM思想对Bert进行下游任务的微调,提升模型在土木建筑信息领域的自然语言文本生成能力。本方法提出的模型在土木建筑信息领域生成问题具有较高的可行性和有效性,并且达到了较高的自然语言问题生成水准。

    基于深度学习的轨道交通规范关系抽取方法

    公开(公告)号:CN111597420A

    公开(公告)日:2020-08-28

    申请号:CN202010355573.1

    申请日:2020-04-29

    摘要: 本发明基于深度学习的轨道交通规范关系抽取方法,包括获取带有人工标注的有标签数据,对标签数据进行规范向量表示,将向量化数据输入到GRU模型中进行实体和实体间关系特征提取,对提取的实体和实体间关系进行训练,生成实体识别模型和实体间关系抽取模型,使用Softmax和Cross-Entropy函数结合的方式对提取的实体间关系特征进行关系分类,评估关系分类结果,根据未分类成功的实体间关系优化实体间关系抽取模型,将待检测轨道交通规范语料输入实体间关系抽取模型中,即输出待检测轨道交通规范语料中的实体间关系。采用本方法能够抽取中文轨道交通设计规范中实体间关系,从而提高建筑领域从业人员对轨道交通规范的查询速率。

    基于深度学习的文本图片匹配推荐方法

    公开(公告)号:CN111339338A

    公开(公告)日:2020-06-26

    申请号:CN202010132830.5

    申请日:2020-02-29

    IPC分类号: G06F16/58 G06F16/535

    摘要: 本发明公开了一种基于深度学习的文本与图片的推荐匹配算法,所采用的推荐方法是基于不断充实的用户操作记录数据库。使用图片识别和基于特征向量分布的关键词提取算法,构建关键词特征向量,结合用户操作记录数据库、向量的相似度算法和集合的相似度算法实现图片与文本的最佳匹配推荐。以达到录入者在录入文本、图片数据后,实现自动推荐本次录入的主页图片、录入的图片在文本中的显示位置。以便能够实现消除录入者理解文本、手动挑选图片、调整图片位置的工作。

    一种基于深度学习的命名实体识别方法

    公开(公告)号:CN113869051B

    公开(公告)日:2024-08-02

    申请号:CN202111107150.9

    申请日:2021-09-22

    摘要: 本发明公开了一种基于深度学习的命名实体识别方法,步骤包括:1)构建一对一的同义词词典;2)选择数据集,定义实体类集合;3)对BERT模型进行对比学习预训练;4)进行命名实体识别任务的微调训练,得到编码器和分类器;5)将测试集中剩余待处理的句子统称为句子S1;6)将句子S1输入编码器,得到字嵌入向量集合和句向量u;7)在句子S1中基于跨度选择文段,构造文段的词嵌入向量;8)利用同义词词典替换步骤7在句子S1中所选中的文段,得到句子S2;9)利用编码器处理句子S2,得到句向量v;10)计算得到span_em,再通过分类器分类得到实体集C。本发明的方法,识别准确率高。

    基于深度学习的轨道交通事件知识图谱构建方法

    公开(公告)号:CN111597350B

    公开(公告)日:2023-06-02

    申请号:CN202010365826.3

    申请日:2020-04-30

    摘要: 本发明公开了一种基于深度学习的轨道交通事件知识图谱构建方法;采用词典匹配模式加人工标注方式构建事件识别模型训练数据;采用BERT‑BiLSTM‑CRF算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用BERT‑BiLSTM‑ATTENTION‑SOFTMAX算法训练关系识别模型,自动抽取事件之间的关系。提升了轨道交通建设设计工程信息化,减少了构建图谱的工作量。

    一种基于深度学习的命名实体识别方法

    公开(公告)号:CN113869051A

    公开(公告)日:2021-12-31

    申请号:CN202111107150.9

    申请日:2021-09-22

    摘要: 本发明公开了一种基于深度学习的命名实体识别方法,步骤包括:1)构建一对一的同义词词典;2)选择数据集,定义实体类集合;3)对BERT模型进行对比学习预训练;4)进行命名实体识别任务的微调训练,得到编码器和分类器;5)将测试集中剩余待处理的句子统称为句子S1;6)将句子S1输入编码器,得到字嵌入向量集合和句向量u;7)在句子S1中基于跨度选择文段,构造文段的词嵌入向量;8)利用同义词词典替换步骤7在句子S1中所选中的文段,得到句子S2;9)利用编码器处理句子S2,得到句向量v;10)计算得到span_em,再通过分类器分类得到实体集C。本发明的方法,识别准确率高。

    基于深度学习的轨道交通规范关系抽取方法

    公开(公告)号:CN111597420B

    公开(公告)日:2023-06-02

    申请号:CN202010355573.1

    申请日:2020-04-29

    摘要: 本发明基于深度学习的轨道交通规范关系抽取方法,包括获取带有人工标注的有标签数据,对标签数据进行规范向量表示,将向量化数据输入到GRU模型中进行实体和实体间关系特征提取,对提取的实体和实体间关系进行训练,生成实体识别模型和实体间关系抽取模型,使用Softmax和Cross‑Entropy函数结合的方式对提取的实体间关系特征进行关系分类,评估关系分类结果,根据未分类成功的实体间关系优化实体间关系抽取模型,将待检测轨道交通规范语料输入实体间关系抽取模型中,即输出待检测轨道交通规范语料中的实体间关系。采用本方法能够抽取中文轨道交通设计规范中实体间关系,从而提高建筑领域从业人员对轨道交通规范的查询速率。

    基于深度学习的文本图片匹配推荐方法

    公开(公告)号:CN111339338B

    公开(公告)日:2023-03-07

    申请号:CN202010132830.5

    申请日:2020-02-29

    IPC分类号: G06F16/58 G06F16/535

    摘要: 本发明公开了一种基于深度学习的文本图片匹配推荐方法,所采用的推荐方法是基于不断充实的用户操作记录数据库。使用图片识别和基于特征向量分布的关键词提取算法,构建关键词特征向量,结合用户操作记录数据库、向量的相似度算法和集合的相似度算法实现图片与文本的最佳匹配推荐。以达到录入者在录入文本、图片数据后,实现自动推荐本次录入的主页图片、录入的图片在文本中的显示位置。以便能够实现消除录入者理解文本、手动挑选图片、调整图片位置的工作。