一种电力词汇挖掘方法、装置及存储介质

    公开(公告)号:CN117725925A

    公开(公告)日:2024-03-19

    申请号:CN202311676082.7

    申请日:2023-12-08

    摘要: 本发明公开了一种电力词汇挖掘方法、装置及存储介质,以字符为单位分割电力词汇语句;利用BERT模型预处理生成字符xi的含有上下文信息的字向量;使用bilstm模型进行编码捕获距离当前预设字符距离的远距离上下文信息,通过对上下文的信息深度理解分析当前词语的语义;使用CRF层对编码信息进行最大概率的推导,输出分词的结果与该结果的可信度。本发明可以大幅度提升了电力文本分词的效果,相对比传统的词典分词方法。本专利方法对文章歧义词、新词的兼容性的得到大大改善与提升,同时大幅度减少对分词词典的依赖性。