一种基于SBERT的中文专利IPC分类方法

    公开(公告)号:CN115758244A

    公开(公告)日:2023-03-07

    申请号:CN202211445354.8

    申请日:2022-11-18

    Applicant: 中北大学

    Abstract: 本发明公开一种基于SBERT的中文专利IPC分类方法,包括步骤:语料数据预处理:从专利文本中提取特定字句构成第一路语料数据,从IPC分类表按类别提取可表达对应类的术语描述作为第二路语料数据;语料数据的数据增强处理;文本向量化编码:分别将第一路语料数据和第二路语料数据输入SBERT框架下的第一路BERT预训练模型和第二路BERT预训练模型进行向量化编码,得到专利文本的向量表示;相似度比较:根据计算得到的相似度排名选择分类号。本发明采用具有孪生结构的SBERT作为中文专利自动分类的框架,将专利文本和IPC分类表中的术语描述作为SBERT的两路输入,经BERT向量化编码,由两路向量相近程度来判定专利类别,减少计算量,提升分类准确率,且给出多个相关IPC分类号。

Patent Agency Ranking