基于ERNIE模型的敏感信息识别方法、系统、存储介质及设备

    公开(公告)号:CN119597920A

    公开(公告)日:2025-03-11

    申请号:CN202411680942.9

    申请日:2024-11-22

    Abstract: 本发明实施例公开了一种基于ERNIE模型的敏感信息识别方法,所述方法包括:获取电网敏感文本数据集并对其进行分词处理,确定词表;利用ERNIE模型对所述电网敏感文本数据集进行处理,获取每个句子对应的动态向量和与所述动态向量相匹配的标签;获取所述每个句子的上下文语义信息,根据所述词表中各分词对句子敏感分类的重要性,确定其对应的权重;根据标签之间的依赖关系和各分词权重,确定电网敏感文本数据集对应的标签序列;当所述标签序列对应的ERNIE模型目标函数满足阈值条件时,则ERNIE模型训练完成;根据训练完成后的ERNIE模型确定敏感信息的识别结果。本发明通过ERNIE模型能够显著提高电网领域专业数据中敏感信息识别的准确性和效率。

    电力领域热点话题发现方法、装置、介质和设备

    公开(公告)号:CN119493855A

    公开(公告)日:2025-02-21

    申请号:CN202411626134.4

    申请日:2024-11-14

    Abstract: 本发明公开了一种电力领域热点话题发现方法、装置、介质和设备,首先通过标签标记文本来区分电力领域的子领域,然后通过自指导生成提问指令,构建指令数据库。接着,基于电力领域的语料库对初始大语言模型进行增量训练,并使用指令数据库进行微调,从而获得适应电力领域的目标大语言模型。最后,利用知识图谱检索最新的标签文本,将其输入模型以生成热点话题。可以理解的是,本方法通过增量训练和微调,使大语言模型在电力领域内具备更强的理解和生成能力,解决了“幻觉”问题。同时通过实时更新的数据、标签和知识图谱,系统能够提供更加精准、时效性高的热点话题,确保生成内容的专业性和准确性。

    电网领域关键词抽取方法、训练方法、介质和设备

    公开(公告)号:CN119089896A

    公开(公告)日:2024-12-06

    申请号:CN202411127633.9

    申请日:2024-08-16

    Abstract: 本发明公开了一种电网领域关键词抽取方法、训练方法、介质和设备,在训练阶段先获取电网领域词典并构建电网领域伪数据集,再将伪数据集输入预训练语言模型,进行初步调整,获得调整后的电网领域预训练模型。接着获取电网领域的第一文本数据集,对其进行预处理,得到目标文本数据集,最后将目标文本数据集输入调整后的预训练模型,进行二次调整,获得最终的电网领域关键词抽取模型。在应用阶段,将待抽取数据集输入训练好的电网领域关键词抽取模型,获取目标标签序列,并基于目标标签序列从待抽取数据集中抽取电网领域关键词,得到关键词列表。本发明提供了一种高效、精准的电网领域关键词抽取解决方案。

    用于网络社区的检测方法、系统、存储介质及设备

    公开(公告)号:CN117252722A

    公开(公告)日:2023-12-19

    申请号:CN202311074925.6

    申请日:2023-08-24

    Abstract: 本发明实施例公开了一种用于网络社区的检测方法,该方法包括下列步骤:先获取预设网络中所有节点的极限派系,并构建第一极限派系集合;再将所述第一极限派系集合中的派系按照节点数量从大到小进行排序;选择前K个派系作为K个网络社区,其中K为预设的社区数量;最后在剩余N‑K个派系中,获取前K个派系中不存在的节点,判断所述节点所在派系与前K个派系的公共点数量,确定网络社区,其中N为第一极限派系集合中派系的数量,这种方法能够基于网络的派系,在复杂网络中快速准确的确定社区。

Patent Agency Ranking