一种基于预训练语言模型的文本分类方法及装置

发明公开

CN118113873A 一种基于预训练语言模型的文本分类方法及装置有权

请登陆查看更多内容

专利标题： 一种基于预训练语言模型的文本分类方法及装置
申请号： CN202410297295.7

申请日： 2024-03-15
公开(公告)号： CN118113873A

公开(公告)日： 2024-05-31
发明人: 孟斌 , 高晓峰 , 王杨 , 江海燕 , 周星 , 牛涛 , 周春龙 , 刘俊红
申请人： 应急管理部大数据中心 , 中孚安全技术有限公司
申请人地址： 北京市东城区和平里九区甲4号;
专利权人： 应急管理部大数据中心,中孚安全技术有限公司
当前专利权人： 应急管理部大数据中心,中孚安全技术有限公司
当前专利权人地址： 北京市东城区和平里九区甲4号;
代理机构： 北京兴智翔达知识产权代理有限公司
代理商 董云海
主分类号： G06F16/35
IPC分类号： G06F16/35 ; G06F16/33 ; G06F40/289

摘要：

本发明提供一种基于预训练语言模型的文本分类方法及装置，涉及内容理解技术领域，所述方法包括：获取文本分类类别和待分类文本，并使用预训练语言模型进行预测，以得到每个分类的关键词；对待分类文本进行分词，并使用预训练语言模型进行预测，以得到分类指示性词；使用分类指示性词训练分类模型，以得到训练后分类模型；使用训练后分类模型进行文本分类，以得到分类结果。本发明提供一种基于预训练语言模型的文本分类方法及装置，解决数据治理过程中，用户在对文本进行分类时无法提供所有文档类别，同时也无法提供每个类别的足够样本用于机器训练的问题。

公开/授权文献

CN118113873B 一种基于预训练语言模型的文本分类方法及装置公开/授权日：2024-08-06

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/35	..••聚类；分类