一种基于对抗训练-BERT的双通道新闻文本分类方法

    公开(公告)号:CN117235252A

    公开(公告)日:2023-12-15

    申请号:CN202210631122.5

    申请日:2022-06-06

    Applicant: 复旦大学

    Inventor: 周海伟 卢文联

    Abstract: 本发明公开了基于对抗训练‑BERT的双通道新闻文本分类方法:步骤1,获取中文新闻文本数据集,对数据集作预处理,得到处理后的数据集;步骤2,对处理后的数据集通过语言训练模型BERT做动态词嵌入,获取语料库动态词向量;步骤3,对语言训练模型BERT的Embedding引入PGD方法进行对抗训练,并得到优化后的词向量;步骤4,利用优化后的词向量,采用TextCNN通道来提取数据集的关键词特征和不同层次的局部语义信息,得到关键局部信息向量;步骤5,利用BiLSTM通道提取数据集的上下文语义信息,得到上下文语义信息向量;步骤6,引入CLS,对双通道特征向量及CLS进行拼接,得到拼接后的向量;步骤7,将拼接后的向量输入带Dropout的全连接层并用Softmax函数进行分类,输出新闻文本的类别。

Patent Agency Ranking