-
公开(公告)号:CN114139497B
公开(公告)日:2024-08-23
申请号:CN202111519931.9
申请日:2021-12-13
申请人: 国家电网有限公司大数据中心
IPC分类号: G06F40/126 , G06F40/194 , G06F40/30 , G06N3/0475 , G06N3/08
摘要: 本发明属于文本摘要提取技术领域,尤其为一种基于BERTSUM模型的文本摘要提取方法先对需要提取摘要的文本进行预处理,然后将预处理后的数据输入改进的BERT模型进行处理,判断出应该出现在摘要中的句子,BERT模型的改进过程中,在BERT模型原本的损失函数中增加一个余弦相似度损失,避免了数据处理中过度拟合,使得获得的摘要更加准确;另外,通过加入余弦相似性约束,使得BERT模型在训练早期,获得的结果的损失能够更快的下降,提高数据处理的速度;BERT模型的改进方面还包括加入融合指针网络的UniLM模型,通过融合指针网络的UniLM模型对文本下游生成任务进行微调,提前获取文本中的关键信息词,提高文本摘要的获得速度。
-
公开(公告)号:CN114139497A
公开(公告)日:2022-03-04
申请号:CN202111519931.9
申请日:2021-12-13
申请人: 国家电网有限公司大数据中心
IPC分类号: G06F40/126 , G06F40/194 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本发明属于文本摘要提取技术领域,尤其为一种基于BERTSUM模型的文本摘要提取方法先对需要提取摘要的文本进行预处理,然后将预处理后的数据输入改进的BERT模型进行处理,判断出应该出现在摘要中的句子,BERT模型的改进过程中,在BERT模型原本的损失函数中增加一个余弦相似度损失,避免了数据处理中过度拟合,使得获得的摘要更加准确;另外,通过加入余弦相似性约束,使得BERT模型在训练早期,获得的结果的损失能够更快的下降,提高数据处理的速度;BERT模型的改进方面还包括加入融合指针网络的UniLM模型,通过融合指针网络的UniLM模型对文本下游生成任务进行微调,提前获取文本中的关键信息词,提高文本摘要的获得速度。
-
公开(公告)号:CN114399137A
公开(公告)日:2022-04-26
申请号:CN202111437807.8
申请日:2021-11-30
申请人: 国家电网有限公司大数据中心
摘要: 本发明提供了一种电网数字化投资下多数据源分析稳定性评价方法及系统,包括:获取预先确定的指标数据;将所述指标数据输入到预先构建的层次化结构模型,得到稳定性综合指数;其中,所述层次化结构模型包括以多数据源分析稳定性综合指标构建的目标层,通过模糊层次分析法和熵权法确定各指标权重构建的。本发采用了模糊层次分析法和熵权法确定各指标权重,从主观和客观两方面对指标因素进行合理的综合,使得稳定性评价结果更准确。
-
公开(公告)号:CN115170329A
公开(公告)日:2022-10-11
申请号:CN202210774591.2
申请日:2022-07-01
申请人: 国家电网有限公司大数据中心
IPC分类号: G06Q40/06 , G06Q10/06 , G06F16/903
摘要: 本发明公开了一种科技项目的投资效益评价方法,通过获取当前项目和历史项目的投资数据;历史项目的投资数据包括:历史投资效益数据和对应的多个历史投资指标数据;历史项目和当前项目属于同一类科技项目;根据历史投资效益数据和每个历史投资指标数据的关联度确定当前项目的投资效益评价指标;根据投资效益评价指标和当前项目的投资数据评价当前项目的投资效益,能够为项目投资提供科学的投资指标选取与科技项目的投资效益评价方法,降低项目投资风险;辅助项目的投资预测与决策工作,简化科技项目的投资效益评价过程。
-
公开(公告)号:CN114996408A
公开(公告)日:2022-09-02
申请号:CN202210754571.9
申请日:2022-06-29
申请人: 国家电网有限公司大数据中心
IPC分类号: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/02
摘要: 本发明属于电力数据处理技术领域,尤其为一种基于Bert的面向非结构化电力数据的知识抽取方法及系统,该方法中,对触发词明显、句式和位置相对固定的知识,使用正则匹配方法抽取知识实体,对于非结构化电力数据中存在实体界限模糊和实体嵌套问题,通过基于Bert的知识抽取方法来抽取知识实体,然后再利用实体抽取的结果使用基于Bert的预训练语言模型进行关系和属性抽取,最终实现对非结构化电力数据的知识抽取,充分考虑了非结构化电力数据的句式和结构,适于非结构化电力数据的知识抽取,属于一种深度学习的知识抽取方法,而深度学习方法可以自动学习特征,采用低维、稠密的实值向量表示数据,避免了对人工和专家知识的严重依赖。
-
公开(公告)号:CN113505590A
公开(公告)日:2021-10-15
申请号:CN202110839335.2
申请日:2021-07-23
申请人: 国家电网有限公司大数据中心
IPC分类号: G06F40/279 , G06F40/30
摘要: 本发明公开了一种基于实体消歧的数据库中的关键数据元素识别方法及系统,其包括:结合DeepType模型、DeepMatch模型以及DeepCosine模型对数据库中的数据进行实体类型的预测以及实体的消歧,其中,所述数据库中包括多个数据表;基于Apriori算法以及FP‑growth算法对消歧后的数据库中的数据进行关联分析从而构建数据库表关联图;基于所述数据库表关联图识别出关键数据元素;基于候选实体类型、上下文的关联信息以及候选实体向量对所述关键数据元素进行解析和消歧。本发明的基于实体消歧的数据库中的关键数据元素识别方法及系统,其实现了全电网一张数据库视图,便于及时获取电网中的关键数据元素,可以提高电网行业数据管理效率。
-
-
-
-
-