-
公开(公告)号:CN115758244A
公开(公告)日:2023-03-07
申请号:CN202211445354.8
申请日:2022-11-18
Applicant: 中北大学
IPC: G06F18/241 , G06F18/22 , G06F40/211 , G06Q50/18 , G06F40/289
Abstract: 本发明公开一种基于SBERT的中文专利IPC分类方法,包括步骤:语料数据预处理:从专利文本中提取特定字句构成第一路语料数据,从IPC分类表按类别提取可表达对应类的术语描述作为第二路语料数据;语料数据的数据增强处理;文本向量化编码:分别将第一路语料数据和第二路语料数据输入SBERT框架下的第一路BERT预训练模型和第二路BERT预训练模型进行向量化编码,得到专利文本的向量表示;相似度比较:根据计算得到的相似度排名选择分类号。本发明采用具有孪生结构的SBERT作为中文专利自动分类的框架,将专利文本和IPC分类表中的术语描述作为SBERT的两路输入,经BERT向量化编码,由两路向量相近程度来判定专利类别,减少计算量,提升分类准确率,且给出多个相关IPC分类号。