发明公开
- 专利标题: 一种配网实体相关的语义搜索方法
-
申请号: CN202010864615.4申请日: 2020-08-25
-
公开(公告)号: CN112036178A公开(公告)日: 2020-12-04
- 发明人: 王鑫 , 张淑娟 , 汪玉 , 赵龙 , 胡世骏 , 秦丹丹 , 郑高峰 , 刘丽 , 李龙跃 , 高博 , 徐斌 , 袁方 , 李金中 , 王潇 , 孙伟 , 李博 , 卞真旭 , 金雨楠 , 钱光超 , 仇茹嘉
- 申请人: 国家电网有限公司 , 国网安徽省电力有限公司 , 国网安徽省电力有限公司电力科学研究院
- 申请人地址: 北京市西城区西长安街86号
- 专利权人: 国家电网有限公司,国网安徽省电力有限公司,国网安徽省电力有限公司电力科学研究院
- 当前专利权人: 国家电网有限公司,国网安徽省电力有限公司,国网安徽省电力有限公司电力科学研究院
- 当前专利权人地址: 北京市西城区西长安街86号
- 代理机构: 西安毅联专利代理有限公司
- 代理商 杨燕珠
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/30 ; G06F16/33
摘要:
本发明为一种配网实体相关的语义搜索方法,其特征在于包括:对配网实体中的文本进行基于词频统计的分词方法进行分词,得到词库;对配网实体中的文本进行模型分词,得到词库;合并基于词频的词库和基于模型的词库;对词库中分词错误的专有名词进行标注;用标注的词语对配网实体中的文本进行大量的训练,得到词库;合并上述的三个词库,是基于Jieba分词包;所述Jieba分词包可以添加自己标注的专业词语;对词库进行大量的训练之前先将换行符、句号、逗号等分隔符将全文分成短句;基于词频统计分词是统计任意两个字同时出现的频率。