发明公开
- 专利标题: 互联网企业分类的方法、装置和系统
-
申请号: CN202211690035.3申请日: 2022-12-27
-
公开(公告)号: CN115827871A公开(公告)日: 2023-03-21
- 发明人: 李美燕 , 吴震 , 王秀文 , 李娅强 , 刘纯艳 , 王峰 , 刘鑫 , 李政达 , 陈鹏云 , 杨菁林 , 赵磊 , 秦恺 , 曾宣玮 , 刘志丞
- 申请人: 国家计算机网络与信息安全管理中心 , 长城计算机软件与系统有限公司
- 申请人地址: 北京市朝阳区裕民路甲3号;
- 专利权人: 国家计算机网络与信息安全管理中心,长城计算机软件与系统有限公司
- 当前专利权人: 国家计算机网络与信息安全管理中心,长城计算机软件与系统有限公司
- 当前专利权人地址: 北京市朝阳区裕民路甲3号;
- 代理机构: 北京麦宝利知识产权代理事务所
- 代理商 郭轶群
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06N3/08 ; G06F18/241 ; G06N3/0464
摘要:
本发明提供了一种互联网企业分类的方法和装置,其中该方法包括:S1:获取互联网企业的多维度数据,并对所述多维度数据预处理以生成长文本数据;S2:将所述长文本数据输入基于Transformer编码器的Bert网络模型进行处理;S3:将经过处理后的数据送入分类器来对所述互联网企业进行分类。本发明的方案基于在Transformer架构的深度神经网络中进行自动特征组合学习,能够对互联网企业准确进行行业分类,并能够极大提升互联网企业行业分类的准确率。本发明的方案能够快速将海量企业多维度信息进行识别,无需人工干预。本发明的方案基于大语料预训练模型加下游任务微调的方案能灵活应用在不同场景中海量企业的快速分类。