-
公开(公告)号:CN111831792B
公开(公告)日:2021-08-27
申请号:CN202010630117.3
申请日:2020-07-03
申请人: 国网江苏省电力有限公司信息通信分公司
IPC分类号: G06F16/33 , G06F40/151 , G06F40/289 , G06F40/295 , G06K9/62
摘要: 本发明公开了一种电力知识库构建方法,包括对语料进行预处理,获得语料文本;响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别;将命名实体识别后的语料文本输入预先训练的命名实体关系抽取模型,获得命名实体关系数据;将命名实体关系数据进行存储,构建电力知识库。同时公开了相应的系统。本发明增加了非结构化数据,构建的知识库知识更加丰富,同时本发明通过命名实体识别模型和命名实体关系抽取模型抽取命名实体关系数据,知识库构建不需要自顶向下的建模,降低了构建的门槛,大大减少人工成本,无需大量的、长期的人工干预与校正。
-
公开(公告)号:CN111831792A
公开(公告)日:2020-10-27
申请号:CN202010630117.3
申请日:2020-07-03
申请人: 国网江苏省电力有限公司信息通信分公司
IPC分类号: G06F16/33 , G06F40/151 , G06F40/289 , G06F40/295 , G06K9/62
摘要: 本发明公开了一种电力知识库构建方法,包括对语料进行预处理,获得语料文本;响应于语料文本为非结构化文本,将语料文本输入预先训练的命名实体识别模型,对语料文本中命名实体进行识别;将命名实体识别后的语料文本输入预先训练的命名实体关系抽取模型,获得命名实体关系数据;将命名实体关系数据进程存储,构建电力知识库。同时公开了相应的系统。本发明增加了非结构化数据,构建的知识库知识更加丰富,同时本发明通过命名实体识别模型和命名实体关系抽取模型抽取命名实体关系数据,知识库构建不需要自顶向下的建模,降低了构建的门槛,大大减少人工成本,无需大量的、长期的人工干预与校正。
-
公开(公告)号:CN111831788A
公开(公告)日:2020-10-27
申请号:CN202010547313.4
申请日:2020-06-16
申请人: 国网江苏省电力有限公司信息通信分公司
IPC分类号: G06F16/33 , G06F40/247 , G06F40/279 , G06K9/62
摘要: 本发明公开了一种电力语料标记模型构建方法,包括对训练集中的已标记电力语料进行扩展,训练初始的标记模型;判断训练的标记模型是否满足预设要求,若不满足预设要求,用该标记模型对未标记的电力语料进行标记,并将标记后的电力语料放入训练集,对训练集中的已标记电力语料进行扩展,重新训练标记模型,重复该步骤,直到训练的标记模型满足预设要求。同时公开了相应的系统。本发明对训练集中的已标记电力语料进行扩展,用不满足预设要求的标记模型标记电力语料,并将标记后的电力语料加入训练集,采用滚雪球的方式扩大训练集,大大减少人工成本。
-
-