-
公开(公告)号:CN115440330B
公开(公告)日:2025-02-11
申请号:CN202211100112.5
申请日:2022-09-09
Applicant: 重庆邮电大学
IPC: G16H10/60 , G06F40/295 , G06F18/21 , G06N3/045 , G06N3/0442 , G06N3/084
Abstract: 本发明属于文本标注领域,具体涉及一种基于主动学习的中文电子病历命名实体识别方法,包括:获取已标记实体的初始训练集和未标记实体的待打标数据;以该训练集,训练基于深度学习的命名实体识别模型,得到中间命名实体识别模型,该中间命名实体识别模型评估该未标记数据中每个实例的价值,将该未标记数据中价值最高的实例进行命名实体标注后加入该训练集;重复训练直到满足预设条件,将待命名实体识别的文本数据输入该最终命名实体识别模型,得到命名实体识别结果。本发明通过让模型预测自己的损失,从而找到能让自己改变最大的样本,满足了中文电子病历这一场景下对于句子级的命名实体识别准确率的高要求,提高了识别的准确率。
-
公开(公告)号:CN115440330A
公开(公告)日:2022-12-06
申请号:CN202211100112.5
申请日:2022-09-09
Applicant: 重庆邮电大学
IPC: G16H10/60 , G06F40/295 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明属于文本标注领域,具体涉及一种基于主动学习的中文电子病历命名实体识别方法,包括:获取已标记实体的初始训练集和未标记实体的待打标数据;以该训练集,训练基于深度学习的命名实体识别模型,得到中间命名实体识别模型,该中间命名实体识别模型评估该未标记数据中每个实例的价值,将该未标记数据中价值最高的实例进行命名实体标注后加入该训练集;重复训练直到满足预设条件,将待命名实体识别的文本数据输入该最终命名实体识别模型,得到命名实体识别结果。本发明通过让模型预测自己的损失,从而找到能让自己改变最大的样本,满足了中文电子病历这一场景下对于句子级的命名实体识别准确率的高要求,提高了识别的准确率。
-