-
公开(公告)号:CN117151101A
公开(公告)日:2023-12-01
申请号:CN202311019637.0
申请日:2023-08-14
Applicant: 华中科技大学
IPC: G06F40/295 , G06F40/30 , G06F40/216 , G06F16/35 , G06F16/36 , G06N5/022 , G06F18/214 , G06F18/21 , G06F18/231 , G06F18/2415 , G06Q50/04
Abstract: 本发明属于制造工艺实体识别相关技术领域,其公开了一种长尾工艺实体识别方法与设备,所述方法从稀有类比例、稀有类权重两个角度,提升实体识别性能。从稀有类比例角度,针对先进的掩码语言模型数据增强方法,在工艺领域微调数据稀缺的问题,提出通过实体聚类来扩充微调数据,从而训练出泛化性良好的模型,丰富数据增强结果,提升稀有类比例;从稀有类权重角度,针对工艺领域实体重名现象,提出考虑实体重名的类别权重计算方法,解决直接根据各类实体出现频次确定权重的传统方法无法处理的实体重名问题。