-
公开(公告)号:CN109033402A
公开(公告)日:2018-12-18
申请号:CN201810874561.2
申请日:2018-08-02
Applicant: 上海应用技术大学
CPC classification number: G06K9/6256
Abstract: 本发明提供了一种安全领域专利文本的分类方法,本发明提出了一种安全领域专利文本的分类方法,该方法包括以下步骤:步骤一,在文本预处理过程中,将专利文本中频繁出现的词语加入停用词表,以节省存储空间,提高检索效率;步骤二,引入预训练的Word2Vec模型,解决传统方法所造成的维度灾难问题;步骤三,通过训练长短期记忆网络(Long Short‑Term Memory,LSTM)分类模型,提取文本特征,进行安全领域专利文本分类;步骤四,使用准确率和ROC曲线评价模型对分类结果进行评估。经过试验证明:利用本方法能够较好的对安全领域的专利文本进行分类,对5万条专利文本进行训练和测试,测试集的准确率达到93.48%。