-
公开(公告)号:CN108153895A
公开(公告)日:2018-06-12
申请号:CN201810012673.7
申请日:2018-01-06
Applicant: 国网福建省电力有限公司 , 国家电网公司 , 国网福建省电力有限公司信息通信分公司
IPC: G06F17/30
Abstract: 本发明涉及一种基于开放数据的语料库构建方法和系统,该方法包括:S1:由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈,利用有序规则栈构建初始预测模型,利用初始预测模型对原始数据库进行预测,得到驱动语料库;S2:基于步骤S1得到的驱动语料库,利用机器学习分类算法构建语料分类模型,基于语料分类模型对不断采集的原始数据库进行预测,将语料分类模型预测的结果不断加入到面向特定领域的语料库中,直到满足语料库构建在数量上的要求。与现有技术相比,本发明能够有效降低人工投入、大幅度减小业务专家投入、提升语料库质量,并可以用于不同语料库的构建过程中,有效降低了特定领域语料库的构建成本。
-
公开(公告)号:CN107992633B
公开(公告)日:2021-07-27
申请号:CN201810017865.7
申请日:2018-01-09
Applicant: 国网福建省电力有限公司 , 国家电网公司 , 国网福建省电力有限公司信息通信分公司
Abstract: 本发明公开了一种基于关键词特征的电子文档自动分类方法及系统,该方法提出通过构建企业的领域词汇表,采用企业级搜索引擎对分类语料库进行逐个词汇搜索,计算词汇与文档的相关度,将所有文档特征化为相关度最大的前100个关键词的相关度组成的特征向量,基于训练集文档的特征向量利用不同的机器学习算法构建分类器,利用测试集文档对构建的分类器进行评估,最终选择最优的分类器进行部署应用,调用最优分类器的接口对新增的文档进行自动分类。本发明结合企业电子文档特点,采用关键词为特征,能够显著减少生成的特征向量中的无关信息,大大减少了特征向量的维度,提升了特征抽取阶段对文档重要语义的保留,提升了企业电子文档的自动分类效果。
-
公开(公告)号:CN107992633A
公开(公告)日:2018-05-04
申请号:CN201810017865.7
申请日:2018-01-09
Applicant: 国网福建省电力有限公司 , 国家电网公司 , 国网福建省电力有限公司信息通信分公司
Abstract: 本发明公开了一种基于关键词特征的电子文档自动分类方法及系统,该方法提出通过构建企业的领域词汇表,采用企业级搜索引擎对分类语料库进行逐个词汇搜索,计算词汇与文档的相关度,将所有文档特征化为相关度最大的前100个关键词的相关度组成的特征向量,基于训练集文档的特征向量利用不同的机器学习算法构建分类器,利用测试集文档对构建的分类器进行评估,最终选择最优的分类器进行部署应用,调用最优分类器的接口对新增的文档进行自动分类。本发明结合企业电子文档特点,采用关键词为特征,能够显著减少生成的特征向量中的无关信息,大大减少了特征向量的维度,提升了特征抽取阶段对文档重要语义的保留,提升了企业电子文档的自动分类效果。
-
公开(公告)号:CN114239579A
公开(公告)日:2022-03-25
申请号:CN202111326674.7
申请日:2021-11-10
Applicant: 国网福建省电力有限公司信息通信分公司 , 福建亿榕信息技术有限公司
IPC: G06F40/295 , G06F40/242 , G06F40/216 , G06F16/35 , G06F40/30 , G06V30/40 , G06V30/413
Abstract: 本发明公开了一种基于正则表达式和CRF模型的电力可研文档提取方法和装置,所述方法包括:获取用户提交的可研报告,对所述可研报告的内容进行识别、抽取,得到待处理的文本数据;通过数据清洗对所述待处理的文本数据进行重新审查和校验;通过知识库和语义分析模型,对完成数据清洗的待处理的文本数据进行预处理;采用基于文档内容模式、基于文本语言特点模式以及基于上下文辅助信息模式分别配置相应的正则表达式,对预处理后的文本数据进行数据提取;将利用正则表达式规则提取得到的文本数据输入训练后的CRF模型进一步提取,得到可研评审指标。本发明解决了评审过程中指标提取不准确问题,增强可研智能评审系统的智能化能力,提升用户体验。
-
公开(公告)号:CN114239568A
公开(公告)日:2022-03-25
申请号:CN202111328025.0
申请日:2021-11-10
Applicant: 国网福建省电力有限公司信息通信分公司 , 福建亿榕信息技术有限公司
IPC: G06F40/289 , G06N3/04 , G06V30/40 , G06F40/211
Abstract: 本发明实施例公开了一种基于自适应注意力机制的电网公文自动生成方法,包括:获取用户输入的电网公文信息;利用共同注意力机制模型从所述电网公文信息中提取出用户输入的文本特征,并生成上下文特征向量,为所述用户输入的文本特征赋予相应的权重,使模型能够获取用户输入的多窗口文本特征;通过句子BiLSTM模型对所述用户输入的文本特征进行建模,生成句子主题;利用基于自适应注意力机制的词BiLSTM模型自动生成电网公文;在对自动生成的电网公文进行人工校验和确认后,将人工确认后的结果扩充到电网公文语料库中。本发明提供的一种基于自适应注意力机制的电网公文自动生成方法及装置,在节省时间和人力的同时,保障电网公文的精准性与全面性。
-
公开(公告)号:CN114817575B
公开(公告)日:2022-09-02
申请号:CN202210725654.5
申请日:2022-06-24
Applicant: 国网浙江省电力有限公司信息通信分公司 , 国网浙江省电力有限公司 , 福建亿榕信息技术有限公司 , 国网福建省电力有限公司信息通信分公司 , 国网浙江省电力有限公司经济技术研究院
Abstract: 本发明公开了一种基于扩展模型的大规模电力事理图谱处理方法,包括:扩展模型对预设时间段内所接收到的所有事件拓展请求进行统计,生成第一拓展节点集合;根据每个扩展事理节点的必选论元集合和可选论元集合对所有的扩展事理节点添加节点类型标签;对每个归类子集内的扩展事理节点进行二次排序得到第二拓展节点集合;根据每个拓展事件信息的必选论元集合和可选论元集合确定所对应的第一事理节点和第二事理节点;统计先前时刻得到的第一事理节点和第二事理节点生成已确定节点集合,基于已确定节点集合得到当前时刻所遍历的扩展事理节点相对应的第一事理节点和第二事理节点的节点位置,将扩展事理节点分别与第一事理节点和第二事理节点连接。
-
公开(公告)号:CN114817575A
公开(公告)日:2022-07-29
申请号:CN202210725654.5
申请日:2022-06-24
Applicant: 国网浙江省电力有限公司信息通信分公司 , 国网浙江省电力有限公司 , 福建亿榕信息技术有限公司 , 国网福建省电力有限公司信息通信分公司 , 国网浙江省电力有限公司经济技术研究院
Abstract: 本发明公开了一种基于扩展模型的大规模电力事理图谱处理方法,包括:扩展模型对预设时间段内所接收到的所有事件拓展请求进行统计,生成第一拓展节点集合;根据每个扩展事理节点的必选论元集合和可选论元集合对所有的扩展事理节点添加节点类型标签;对每个归类子集内的扩展事理节点进行二次排序得到第二拓展节点集合;根据每个拓展事件信息的必选论元集合和可选论元集合确定所对应的第一事理节点和第二事理节点;统计先前时刻得到的第一事理节点和第二事理节点生成已确定节点集合,基于已确定节点集合得到当前时刻所遍历的扩展事理节点相对应的第一事理节点和第二事理节点的节点位置,将扩展事理节点分别与第一事理节点和第二事理节点连接。
-
公开(公告)号:CN107194133A
公开(公告)日:2017-09-22
申请号:CN201710585472.1
申请日:2017-07-18
Applicant: 国网福建省电力有限公司 , 国家电网公司 , 国网福建省电力有限公司经济技术研究院 , 福建亿榕信息技术有限公司
IPC: G06F17/50
CPC classification number: G06F17/5009
Abstract: 本发明涉及一种基于大数据技术的公用变压器负荷类型分析和辨识方法。该方法通过大数据平台对配网负荷数据进行存储和预处理,根据不同区域和季节的负荷特点建立变压器典型日负荷曲线计算模型和公用变压器负荷类型辨识模型。本发明提高了变压器典型日负荷曲线计算效率和准确性,实现了对公用变压器的负荷类型辨识,为配网设备的监控和检修以及配网规划和结构优化提供了科学严谨的决策支持。
-
公开(公告)号:CN104331780A
公开(公告)日:2015-02-04
申请号:CN201410677887.8
申请日:2014-11-21
Applicant: 国家电网公司 , 国网福建省电力有限公司 , 吴飞 , 李宏发 , 黄文思 , 福建亿榕信息技术有限公司
IPC: G06Q10/06
CPC classification number: G06Q10/0633
Abstract: 本发明公开了一种业务流程监测系统,包括有展现模块,业务功能模块、数据存储模块、数据处理模块及数据采集模块,本发明实现业务系统内部业务、流程、用户、接口等运行数据的实时采集,实现了对业务应用系统的监控和管理。通过OSGI框架技术实现采集器与系统松耦合,增强系统的可扩展性,可让系统实现对多个业务系统的监控,实现更多业务应用系统的监控和管理。
-
公开(公告)号:CN111090755B
公开(公告)日:2023-04-04
申请号:CN201911197172.1
申请日:2019-11-29
Applicant: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网北京市电力公司 , 国家电网有限公司大数据中心 , 国网福建省电力有限公司 , 国家电网有限公司 , 国网信通亿力科技有限责任公司
IPC: G06F16/36 , G06F16/33 , G06F16/383 , G06F40/289 , G06Q50/06
Abstract: 一种文本关联关系判别方法及存储介质,其中方法包括如下步骤,对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果。本发明可以结合超短文本改写技术进行短文本关联关系判断的方法。对比已有方案具有语义理解能力强、文本长度影响小、相关性判断准确率高的有益效果,综上所述,本发明解决了现有技术中对行业文本相关性的判断仍然不够准确的问题。
-
-
-
-
-
-
-
-
-