发明公开
- 专利标题: 对长文本网络信息进行层级分类的方法、系统和服务器
-
申请号: CN202410485315.3申请日: 2024-04-22
-
公开(公告)号: CN118535728A公开(公告)日: 2024-08-23
- 发明人: 唐科伟 , 付智超 , 陈声鸿
- 申请人: 浙江孚临科技有限公司
- 申请人地址: 浙江省杭州市滨江区长河街道建业路511号华创大厦7层703室
- 专利权人: 浙江孚临科技有限公司
- 当前专利权人: 浙江孚临科技有限公司
- 当前专利权人地址: 浙江省杭州市滨江区长河街道建业路511号华创大厦7层703室
- 代理机构: 杭州合谱慧知识产权代理事务所
- 代理商 张刚
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/34 ; G06F40/284 ; G06F40/166 ; G06N20/00
摘要:
本发明公开的对长文本网络信息进行层级分类的方法、系统和服务器,在对获取的待处理的长文本网络信息进行数据清洗,获得预处理后的初步文本信息后,调用预设的模型提示词格式根据所述初步文本信息生成对应的模型提示语句,输入第一模型中对初步文本信息进行摘要提取和文本指定关键词提取,获取文本摘要和场景关键词组,最后使用已训练好的文本分类模型根据所述文本摘要和场景关键词组进行多层级的分类打标,选取预测概率最大的候选标签作为样本的多层级分类结果,以提升长文本网络信息的分类效果和训练速度,有效处理低质量、超长文本、层级标签之间关系不明显的文本分类任务。