基于BERT预训练模型和卷积网络的文本分类方法和系统

    公开(公告)号:CN113468324A

    公开(公告)日:2021-10-01

    申请号:CN202110621401.9

    申请日:2021-06-03

    Abstract: 本发明提供了一种基于BERT预训练模型和卷积网络的文本分类方法和系统,包括:步骤1:在数据库中获取各领域的论文文本数据以及所述论文所属领域的类别标签数据;步骤2:去除文本中的噪声,将论文文本数据和类别标签数据分为训练集和测试集,保存在文本文件中;步骤3:使用BERT预训练模型对训练集和测试集中的文本数据进行字嵌入;步骤4:将每一段文本的字嵌入组成文本矩阵作为卷积神经网络的输入,使用卷积神经网络对句子矩阵进行文本的特征提取;步骤5:将卷积神经网络提取的特征输入全连接神经网络层进行分类。本发明通过全连接神经网络进行分类,使得用户能够快捷且较为准确地按学科领域对论文文献进行分类。

    基于边界与片段分类的学者信息关系抽取方法和系统

    公开(公告)号:CN113468887A

    公开(公告)日:2021-10-01

    申请号:CN202110685661.2

    申请日:2021-06-21

    Abstract: 本发明提供了一种基于边界与片段分类的学者信息关系抽取方法,所述方法包括如下步骤:步骤S1:获取不同教师的个人信息和文本内容;步骤S2:将文本中实体词进行同类实体词替换扩增训练数据;步骤S3:使用预训练模型对文本进行嵌入并提取语义特征;步骤S4:主体词边界识别和实体片段分类;步骤S5:客体词边界以及对应关系边界识别和实体片段分类;步骤S6:根据识别和分类结果进行用户画像。利用概率图思想、结合半指针‑半标注方式,解决关系抽取中一个主体词对应多个客体词,一个客体词对应多个主体词,两个相同实体之间关系不同的问题。利用边界增强实体片段分类的方式能够降低尾指针预测错误带来的影响,提高实体关系抽取准确率。

Patent Agency Ranking