-
公开(公告)号:CN116842180B
公开(公告)日:2023-12-19
申请号:CN202311100296.X
申请日:2023-08-30
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/242 , G06Q50/10
Abstract: 本发明公开了一种公文所属产业识别方法及装置,该方法包括:预先采集公文数据构建产业关键词词典;获取待识别公文;根据所述产业关键词词典计算所述待识别公文对应的各产业得分;选取产业得分最高的产业作为所述待识别公文所属产业。利用本发明方案,可以提升公文所属产业识别的准确性和效率,节约企业和咨询机构工作人员对公文产业分类的时间花费,节省人工成本。
-
公开(公告)号:CN119515317A
公开(公告)日:2025-02-25
申请号:CN202510082263.X
申请日:2025-01-20
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明公开了一种服务事项集成优化方法及装置,该方法包括:对各区域构建的集成事项网络,计算对应的区域集成度;根据区域集成度,确定待优化的集成事项网络;对待优化的集成事项网络进行优化处理。利用本发明方案,可以对不同的服务事项的集成办理程度进行对比,进而为集成事项网络的优化提供有效依据,提升各区域集成事项网络的集成度。
-
公开(公告)号:CN117236409B
公开(公告)日:2024-02-27
申请号:CN202311529303.8
申请日:2023-11-16
Applicant: 中电科大数据研究院有限公司
IPC: G06N3/084 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048 , G06N3/0475 , G06N3/096 , G06F40/289 , G06F16/35 , G06F18/2415 , G06N3/092
Abstract: 本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质,用于在计算资源与存储空间有限的情况下,在具体的应用场景中提高大模型的应用潜力。本申请实施例小模型训练方法包括:采集目标应用场景的初始样本数据;初始化大模型;将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;使用大模型将标记序列转换为概率分布软标签;将概率分布软标签和对应的输入文本数据进行组合,生成数据集;根据概率分布软标签的维度创建一个循环神经网络模型和损失函数;使用数据集、小模型和损失函数进行训练,生(56)对比文件US 11450225 B1,2022.09.20US 2020387782 A1,2020.12.10US 2022237890 A1,2022.07.28孙璐等.基于自然语言理解的软件产业政策关联性分析技术.电子技术应用.2021,第47卷(第12期),第57-63页.刘文瑶.基于迁移学习的交通标志识别研究.中国优秀硕士学位论文全文数据库 工程科技II辑.2022,(第2期),第C035-171页.Weijiang Fan等.A Framework for MathWord Problem Solving Based on Pre-training Models and Spatial OptimizationStrategies.Computer Supported CooperativeWork and Social Computing.2023,第488-498页.Colin Cherry等.Natural LanguageGeneration for Effective KnowledgeDistillation.Proceedings of the 2ndWorkshop on Deep Learning Approaches forLow-Resource NLP.2019,第202-208页.Chengqiang Lu等.KnowledgeDistillation of Transformer-basedLanguage Models Revisited.arXiv.2022,第1-43页.舒真瀚等.基于知识蒸馏的中文自动语音识别的建模方法.现代计算机.2020,(第8期),第18-22页.
-
公开(公告)号:CN115730075A
公开(公告)日:2023-03-03
申请号:CN202211546281.1
申请日:2022-12-05
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/35 , G06F40/242 , G06F40/284
Abstract: 本公开的实施例提供一种主题分类模型训练方法,具体实现方案为:获取待处理文本的初始词集合;对初始词集合进行关键词提取,得到至少一个关键词单元,每个关键词单元包括:至少一个关键词;基于至少一个关键词单元以及预设的主题分类标签矩阵,计算得到初始词集合的主题标签;基于初始词集合以及主题标签,训练得到主题分类模型。通过本实施方式,提高了主题标签标注的效率。
-
公开(公告)号:CN117236409A
公开(公告)日:2023-12-15
申请号:CN202311529303.8
申请日:2023-11-16
Applicant: 中电科大数据研究院有限公司
IPC: G06N3/084 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048 , G06N3/0475 , G06N3/096 , G06F40/289 , G06F16/35 , G06F18/2415 , G06N3/092
Abstract: 本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质,用于在计算资源与存储空间有限的情况下,在具体的应用场景中提高大模型的应用潜力。本申请实施例小模型训练方法包括:采集目标应用场景的初始样本数据;初始化大模型;将采集到的初始样本数据输入到大模型中,通过generate函数将初始样本数据生成输入文本数据,并将输入文本数据转换为标记序列;使用大模型将标记序列转换为概率分布软标签;将概率分布软标签和对应的输入文本数据进行组合,生成数据集;根据概率分布软标签的维度创建一个循环神经网络模型和损失函数;使用数据集、小模型和损失函数进行训练,生成目标小模型。
-
公开(公告)号:CN116842180A
公开(公告)日:2023-10-03
申请号:CN202311100296.X
申请日:2023-08-30
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/242 , G06Q50/10
Abstract: 本发明公开了一种公文所属产业识别方法及装置,该方法包括:预先采集公文数据构建产业关键词词典;获取待识别公文;根据所述产业关键词词典计算所述待识别公文对应的各产业得分;选取产业得分最高的产业作为所述待识别公文所属产业。利用本发明方案,可以提升公文所属产业识别的准确性和效率,节约企业和咨询机构工作人员对公文产业分类的时间花费,节省人工成本。
-
公开(公告)号:CN115599840A
公开(公告)日:2023-01-13
申请号:CN202211265574.2
申请日:2022-10-17
Applicant: 中电科大数据研究院有限公司(CN)
IPC: G06F16/2458 , G06F16/25 , G06F16/26
Abstract: 本发明涉及数据治理技术领域,具体涉及一种复杂业务数据治理方法和系统,本发明中接收复杂业务的数据信息,根据数据信息以资源配置的方式实现对数据的治理,本发明的技术方案中,以资源配置的方式自动实现对数据治理服务的标准化、自动化,其中,资源配置的结构是固定的,适合多种场景数据表的融合,适用范围广,且是自动化操作,执行效率高。
-
-
-
-
-
-