-
公开(公告)号:CN116304033B
公开(公告)日:2023-11-03
申请号:CN202310171687.4
申请日:2023-02-27
Applicant: 中国司法大数据研究院有限公司
IPC: G06F16/35 , G06F18/24 , G06F18/214 , G06F18/21
Abstract: 本发明公开了一种基于半监督、双层多分类的诉请识别方法,其步骤包括:1)获取训练文本集,包括标注数据集和未标注数据集;2)利用标注数据集对教师模型进行训练并得到各标注类别的自适应阈值;利用训练后的教师模型对未标注数据集中的每一未标注诉讼请求数据进行分类和标注,得到伪标签标注数据;3)利用伪标签标注数据和有标注诉讼请求数据训练学生模型,得到学生模型;4)利用学生模型对测试集中的数据进行分类预测,根据分类预测结果计算每一类别的F1分数;如果低于设定阈值,则将该类别下样本训练得到多任务模型;5)将学生模型和多任务模型串联组成双层模型;6)将待分类的民事诉请文本输入双层模型中,得到诉讼请求类别。
-
公开(公告)号:CN115712623A
公开(公告)日:2023-02-24
申请号:CN202211468833.1
申请日:2022-11-22
Applicant: 中国司法大数据研究院有限公司
IPC: G06F16/22 , G06F16/2458 , G06F16/28
Abstract: 本发明公开了一种基于捕获元数据变更的批量数据容错采集方法,其步骤包括:1)定时任务获取数据源的元数据最新版本信息,当发生变化时将该数据源的元数据信息推送给消息中间件;2)消息中间件根据该数据源的元数据最新版本信息与上一版本信息,依次进行元数据识别、元数据纠错、元数据匹配、元数据对比,如果对比结果是字段数量发生变更则进行容错处理并暂停当前任务;如果对比结果是字段类型发生变更,则判断变更后的字段类型是否和hive类型对应,如果对应,则继续当前的批量采集任务;如果变更后的字段类型与hive类型不对应则进行容错处理并暂停当前任务;3)根据执行完容错处理所生成的批量采集任务,对数据源进行数据采集。
-
公开(公告)号:CN115712623B
公开(公告)日:2023-07-18
申请号:CN202211468833.1
申请日:2022-11-22
Applicant: 中国司法大数据研究院有限公司
IPC: G06F16/22 , G06F16/2458 , G06F16/28
Abstract: 本发明公开了一种基于捕获元数据变更的批量数据容错采集方法,其步骤包括:1)定时任务获取数据源的元数据最新版本信息,当发生变化时将该数据源的元数据信息推送给消息中间件;2)消息中间件根据该数据源的元数据最新版本信息与上一版本信息,依次进行元数据识别、元数据纠错、元数据匹配、元数据对比,如果对比结果是字段数量发生变更则进行容错处理并暂停当前任务;如果对比结果是字段类型发生变更,则判断变更后的字段类型是否和hive类型对应,如果对应,则继续当前的批量采集任务;如果变更后的字段类型与hive类型不对应则进行容错处理并暂停当前任务;3)根据执行完容错处理所生成的批量采集任务,对数据源进行数据采集。
-
公开(公告)号:CN116304033A
公开(公告)日:2023-06-23
申请号:CN202310171687.4
申请日:2023-02-27
Applicant: 中国司法大数据研究院有限公司
IPC: G06F16/35 , G06F18/24 , G06F18/214 , G06F18/21
Abstract: 本发明公开了一种基于半监督、双层多分类的诉请识别方法,其步骤包括:1)获取训练文本集,包括标注数据集和未标注数据集;2)利用标注数据集对教师模型进行训练并得到各标注类别的自适应阈值;利用训练后的教师模型对未标注数据集中的每一未标注诉讼请求数据进行分类和标注,得到伪标签标注数据;3)利用伪标签标注数据和有标注诉讼请求数据训练学生模型,得到学生模型;4)利用学生模型对测试集中的数据进行分类预测,根据分类预测结果计算每一类别的F1分数;如果低于设定阈值,则将该类别下样本训练得到多任务模型;5)将学生模型和多任务模型串联组成双层模型;6)将待分类的民事诉请文本输入双层模型中,得到诉讼请求类别。
-
-
-