一种基于BERT-CNN的金融文本分类方法及系统

    公开(公告)号:CN114064888A

    公开(公告)日:2022-02-18

    申请号:CN202111175876.6

    申请日:2021-10-09

    Applicant: 暨南大学

    Inventor: 刘冠 贾燕 黄斐然

    Abstract: 本发明公开了一种基于BERT‑CNN的金融文本分类方法及系统,该方法包括以下步骤:对金融文本数据进行预处理操作,预处理操作包括去除噪声信息、文本处理、分词处理、去除停用词;将所得到的输入向量输入BERT层得到的初始特征向量;将所得初始特征向量使用卷积神经网络提取高级特征向量;将所得高级特征向量和初始特征向量进行特征融合;通过线性全连接层和softmax分类层得到金融文本类别。本发明将BERT提取的初始特征与卷积神经网络层提取高级特征进行融合,通过融合特征挖掘金融文本的信息,解决了模型训练中存在着过拟合现象,有效提高模型分类准确度,同时避免BERT全部层的特征组成矩阵进行二维卷积,进而忽略不同层的特征分辨率之间存在的差异对模型性能的影响。

Patent Agency Ranking