- 专利标题: 一种基于预训练语言模型的文本分类方法及装置
-
申请号: CN202410297295.7申请日: 2024-03-15
-
公开(公告)号: CN118113873A公开(公告)日: 2024-05-31
- 发明人: 孟斌 , 高晓峰 , 王杨 , 江海燕 , 周星 , 牛涛 , 周春龙 , 刘俊红
- 申请人: 应急管理部大数据中心 , 中孚安全技术有限公司
- 申请人地址: 北京市东城区和平里九区甲4号;
- 专利权人: 应急管理部大数据中心,中孚安全技术有限公司
- 当前专利权人: 应急管理部大数据中心,中孚安全技术有限公司
- 当前专利权人地址: 北京市东城区和平里九区甲4号;
- 代理机构: 北京兴智翔达知识产权代理有限公司
- 代理商 董云海
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/33 ; G06F40/289
摘要:
本发明提供一种基于预训练语言模型的文本分类方法及装置,涉及内容理解技术领域,所述方法包括:获取文本分类类别和待分类文本,并使用预训练语言模型进行预测,以得到每个分类的关键词;对待分类文本进行分词,并使用预训练语言模型进行预测,以得到分类指示性词;使用分类指示性词训练分类模型,以得到训练后分类模型;使用训练后分类模型进行文本分类,以得到分类结果。本发明提供一种基于预训练语言模型的文本分类方法及装置,解决数据治理过程中,用户在对文本进行分类时无法提供所有文档类别,同时也无法提供每个类别的足够样本用于机器训练的问题。
公开/授权文献
- CN118113873B 一种基于预训练语言模型的文本分类方法及装置 公开/授权日:2024-08-06