发明公开
- 专利标题: 一种新类别非结构化数据解析器的构建和使用方法及系统
-
申请号: CN202310666169.X申请日: 2023-06-07
-
公开(公告)号: CN116881649A公开(公告)日: 2023-10-13
- 发明人: 崔硕 , 王海峰 , 邓祥瑞 , 毛一凡 , 吕艳丽 , 卞琳 , 郭学良 , 董柯 , 安冰
- 申请人: 国家电网有限公司大数据中心
- 申请人地址: 北京市西城区白广路二条一号综合楼330房间
- 专利权人: 国家电网有限公司大数据中心
- 当前专利权人: 国家电网有限公司大数据中心
- 当前专利权人地址: 北京市西城区白广路二条一号综合楼330房间
- 代理机构: 北京安博达知识产权代理有限公司
- 代理商 徐国文
- 主分类号: G06F18/20
- IPC分类号: G06F18/20 ; G06F18/24 ; G06N3/0464 ; G06N3/08
摘要:
本发明提供了一种新类别非结构化数据解析器的构建和使用方法及系统,包括:接收新类别的非结构化数据,并生成其对应的一组或多组合成数据;查找与新类别的相似度超过设定程度的一个已有类别,并获取对应的神经网络,且根据相似度设置该神经网络;基于非结构化数据和其对应的合成数据,将其作为设置好的神经网络的输入对神经网络进行无监督训练,将训练完成的神经网络与新类别相对应并输出,本发明通过查找与新类别相似的已有类别,设置该已有类别对应的神经网络并进行训练,将训练好的神经网络与新类别对应输出,从而实现了精准解析新类别的非结构化数据,提高了非结构化数据的解析的精准率,以至于不会对后续的结构化数据的解析造成偏差。