-
公开(公告)号:CN113627185B
公开(公告)日:2024-11-22
申请号:CN202110864136.7
申请日:2021-07-29
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F16/35 , G06N20/20 , G16H50/70
Abstract: 本发明属于自然语言处理领域,具体涉及一种用于肝癌病理文本命名的实体识别方法,该方法包括:实时获取肝癌病理文本信息,对该文本信息进行预处理;将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型,得到肝癌病理文本信息识别结果;根据识别结果对肝癌病理文本信息进行分类标记;本发明可对肝癌病理文本的十类关键实体进行精准的识别抽取,实体识别效果较好。
-
公开(公告)号:CN115713083A
公开(公告)日:2023-02-24
申请号:CN202211475281.7
申请日:2022-11-23
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F40/284 , G06F40/30 , G06F16/35 , G06F18/241 , G06F18/2415 , G06F18/214 , G06N3/047 , G06N3/084 , G06N3/0985
Abstract: 本发明属于文本处理领域,具体涉及一种中医药文本关键信息的智能抽取方法,包括将待识别的中医药文本数据输入到训练好的实体片段识别模型中,预测中医药文本中实体的位置;将待识别的中医药文本数据以及对应的实体位置信息输入到实体类别识别模型,预测中医药文本中实体的类别;其中,所述实体片段识别模型采用BIO标记法结合Bert+CRF模型架构;所述实体类别识别模型采用原型网络结构,通过本发明能够准确地识别出中医药文本中的实体位置信息以及实体所属的类别。
-
公开(公告)号:CN115587595A
公开(公告)日:2023-01-10
申请号:CN202211380333.2
申请日:2022-11-03
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F40/284 , G06F40/126
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种用于病理文本命名的多粒度实体识别方法,该方法包括:获取病理文本信息,对病理文本按照字粒度、词粒度进行切分;对切分后的文本进行随机mask掩码和向量初始化,使用两个参数共享的Bert模型对随机mask掩码和向量初始化后的文本进行编码;给每个类别的每个实体预设中心代替词和中心代替字;使用KL loss和CE loss对字粒度和词粒度构造损失函数,CE loss针对替换后的字粒度计算损失进行优化,KE loss对替换后词粒度计算损失进行优化,得到实体识别结果。本发明通过字粒度,词粒度构建模板进行预测,可对病理文本的实体进行精准的识别抽取,实体识别效果较好。
-
公开(公告)号:CN114048749A
公开(公告)日:2022-02-15
申请号:CN202111374828.X
申请日:2021-11-19
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明属于命名实体识别领域,具体涉及一种适用于多领域的中文命名实体识别方法,该方法包括:对中文命名实体数据集进行特定的领域分类;采用样本学习法对领域分类后的数据进行采样,得到数据集,将数据集输入到模型的共享编码表示层;通过域分类器,得到数据的所属领域概率分布,各领域专家层提取领域独有特征,公共专家层根据所属领域概率分布综合各领域专家的特征,将各专家层提取的特征输入到对应的CRF层,得到实体识别结果;本发明将多任务学习技术应用到中文命名实体识别领域中,不同域的数据被单独视为一个训练任务并设计特定的多专家模型结构来提取域独有特征和域共有特征,使不同域之间相互辅助,提升识别效果。
-
公开(公告)号:CN113627185A
公开(公告)日:2021-11-09
申请号:CN202110864136.7
申请日:2021-07-29
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F16/35 , G06N20/20 , G16H50/70
Abstract: 本发明属于自然语言处理领域,具体涉及一种用于肝癌病理文本命名的实体识别方法,该方法包括:实时获取肝癌病理文本信息,对该文本信息进行预处理;将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型,得到肝癌病理文本信息识别结果;根据识别结果对肝癌病理文本信息进行分类标记;本发明可对肝癌病理文本的十类关键实体进行精准的识别抽取,实体识别效果较好。
-
-
-
-