-
公开(公告)号:CN116561244A
公开(公告)日:2023-08-08
申请号:CN202310403811.5
申请日:2023-04-14
申请人: 国家计算机网络与信息安全管理中心 , 长城计算机软件与系统有限公司
IPC分类号: G06F16/31 , G06F16/35 , G06F40/289 , G06F16/36 , G06F18/214 , G06F18/24 , G06F40/30 , G06N3/0499 , G06N3/0895
摘要: 本发明实施例涉及一种目标关系的识别方法及装置,所述方法包括:获取目标关系对应的训练数据集和检测数据集;根据上下句预测和掩码预测对联合模型进行模型预训练,得到训练好的联合抽取预训练模型;将所述训练数据集输入到所述联合抽取预训练模型中进行模型训练,得到训练好的联合抽取模型;将所述检测数据集输入到所述联合抽取模型中进行数据抽取处理,得到检测抽取结果;根据所述检测抽取结果确定所述检测数据集对应目标关系的识别结果。通过将检测数据集输入到训练好的联合抽取模型中,实现数据抽取,得到检测抽取结果,将在抽取到的检测抽取结果进行判断分析,确定所述检测数据集的识别结果;由本方案,可以实现企业关系、资本谱系或实体关系的快速识别的技术效果。
-
公开(公告)号:CN116092102A
公开(公告)日:2023-05-09
申请号:CN202211714858.5
申请日:2022-12-27
申请人: 国家计算机网络与信息安全管理中心 , 长城计算机软件与系统有限公司
IPC分类号: G06V30/412 , G06V30/413 , G06V30/18 , G06V30/162 , G06V30/148 , G06V30/19 , G06V10/44 , G06V10/26 , G06V10/28 , G06V10/48 , G06V10/764 , G06V10/82 , G06N3/044 , G06N3/08
摘要: 本发明公开了一种包含文本信息的结构图的处理方法,所述方法包括:基于包含文本信息的结构图的线段组成进行轮廓检测;根据检测出的轮廓拟合出几何多边形;基于所述结构图中文本框的特征条件,从所述几何多边形中过滤掉不符合所述特征条件的形状,得到边框。本发明能够从包含有文本信息的结构图中高效、准确地提取出边框。
-
公开(公告)号:CN115827871A
公开(公告)日:2023-03-21
申请号:CN202211690035.3
申请日:2022-12-27
申请人: 国家计算机网络与信息安全管理中心 , 长城计算机软件与系统有限公司
IPC分类号: G06F16/35 , G06N3/08 , G06F18/241 , G06N3/0464
摘要: 本发明提供了一种互联网企业分类的方法和装置,其中该方法包括:S1:获取互联网企业的多维度数据,并对所述多维度数据预处理以生成长文本数据;S2:将所述长文本数据输入基于Transformer编码器的Bert网络模型进行处理;S3:将经过处理后的数据送入分类器来对所述互联网企业进行分类。本发明的方案基于在Transformer架构的深度神经网络中进行自动特征组合学习,能够对互联网企业准确进行行业分类,并能够极大提升互联网企业行业分类的准确率。本发明的方案能够快速将海量企业多维度信息进行识别,无需人工干预。本发明的方案基于大语料预训练模型加下游任务微调的方案能灵活应用在不同场景中海量企业的快速分类。
-
公开(公告)号:CN116561334A
公开(公告)日:2023-08-08
申请号:CN202310403556.4
申请日:2023-04-14
申请人: 国家计算机网络与信息安全管理中心 , 长城计算机软件与系统有限公司
IPC分类号: G06F16/36 , G06F16/31 , G06N3/0464 , G06F18/22 , G06N3/084
摘要: 本发明实施例涉及一种关系抽取方法、装置、图谱构建方法及存储介质,所述方法包括:确定预设实体库中各实体之间的关系,所述关系为所述实体库中技术与技术之间的关系,和/或所述实体库中技术与企业之间的关系;根据所述实体库中所述实体之间的关系,建立邻接矩阵;基于所述邻接矩阵,构建与所述实体对应的图卷积网络;利用所述图卷积网络抽取所述实体库中各实体之间的关系。由此,可以实现确定预设实体库中各实体之间的关系,根据实体之间的关系建立邻接矩阵,进而构建与实体对应的图卷积网络,以实现基于图卷积网络简单、便捷地确定各个实体之间的关系,提高效率,提升用户体验。
-
公开(公告)号:CN118734928A
公开(公告)日:2024-10-01
申请号:CN202410629625.8
申请日:2024-05-21
申请人: 国家计算机网络与信息安全管理中心
摘要: 本公开涉及一种微调指令的构造方法、装置、设备及介质,该方法包括:将负面文本样本的标签划分为多个级别的目标分类标签;基于目标分类标签,使用预设的大模型对负面文本样本构造初始微调指令数据;在检查待微调的目标模型无法遵循初始微调指令数据的情况下,将初始微调指令数据修改为目标微调指令数据。本公开针对从知识库或网络上中搜索到负面文本样本,先划分目标分类标签,在基于此构造初始微调指令数据,其中,对于模型不能理解指令的问题,本实施例可以检查目标模型是否能遵循初始微调指令数据,并在无法遵循的情况下,将初始微调指令数据修改为目标微调指令数据,由此得到的目标微调指令能够使文本分类任务更好的拟合预训练目标模型的知识,提高了微调指令的可用性。
-
公开(公告)号:CN113378090B
公开(公告)日:2022-09-06
申请号:CN202110445408.X
申请日:2021-04-23
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/958 , G06F16/35 , G06F40/284 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种互联网网站相似度分析方法、装置以及可读存储介质,方法包括:从多个未分类的互联网网站中提取文本特征词;将各个未分类的互联网网站的文本特征词分别输入预先获取到的孪生网络编码工具,得到各个未分类的互联网网站的文本向量序列,其中:所述孪生网络编码工具是从训练好的孪生网络中的输入层至权值共享循环神经网络层进行迁移得到,且所述孪生网络的训练是基于从多个已分类的互联网网站中提取的文本特征词实现;将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵;对低维弱相关矩阵进行聚类分析,根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况,从而实现互联网网站相似度分析。
-
公开(公告)号:CN113076464B
公开(公告)日:2022-07-22
申请号:CN202110392387.X
申请日:2021-04-13
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/953 , G06F16/332 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明公开一种基于重构编码异常检测的多通道网络线索发现方法及装置,该方法步骤如下:步骤一、构建面向暗网、telegram、区块链交易网络的正则化多通道网络并进行节点对齐;步骤二、基于多通道图表征重构的特征表示学习的线索检测:该装置包括:多通道网络构建与对齐模块、多通道图表征重构的特征表示学习的线索检测模块。本发明可实现对暗网、国外主流即时通讯工具等多通道的网络进行监测,实现网络异常发现和内容管控,实现针对不良信息发现,或者一些网络异常行为的发现。
-
公开(公告)号:CN111914542A
公开(公告)日:2020-11-10
申请号:CN202010437168.4
申请日:2020-05-21
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC分类号: G06F40/279 , G06F40/216 , G06Q40/02 , G06Q50/26
摘要: 本申请实施例提供了疑似非法集资市场主体识别方法、装置、终端及存储介质,涉及金融安全领域。本申请通过从互联网公开数据中获取与市场主体相关联的文本数据;通过预先训练的数据识别模型,从文本数据中识别出非法集资线索数据;将非法集资线索数据输入到预先训练的市场主体抽取模型中,得到疑似非法集资市场主体。本方案可以从互联网公开数据中自动识别出疑似非法集资行为的线索信息,定位疑似非法集资市场主体,从而提高识别非法集资市场主体的效率。
-
公开(公告)号:CN111709737A
公开(公告)日:2020-09-25
申请号:CN202010414739.2
申请日:2020-05-15
申请人: 国家计算机网络与信息安全管理中心
摘要: 本申请提供的比特币交易信息确定方法、装置、存储介质和电子设备,获取比特币交易痕迹信息,所述比特币交易痕迹信息中包含目标用户信息;从比特币账本中,确定与所述比特币交易痕迹信息对应的关联账本记录;根据所述目标用户信息,确定所述关联账本记录对应的交易用户信息。本申请的技术方案可以确定关联账本记录对应的交易用户信息,进而较准确地推测出比特币账本中的匿名地址对应的交易用户信息,为比特币的使用带来了方便。
-
公开(公告)号:CN111538836A
公开(公告)日:2020-08-14
申请号:CN202010321249.8
申请日:2020-04-22
申请人: 哈尔滨工业大学(威海) , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/35 , G06F16/951 , G06F40/284 , G06K9/62
摘要: 本发明涉及一种识别文本类广告中金融广告的方法,其解决了现有广告分析模型无法有效识别金融广告的技术问题,其包括以下步骤:(1)从数据库中获取爬取到的广告文本数据;(2)对步骤(1)的文本数据进行预处理,进行分词以及去除无用信息;(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示;(4)针对步骤(3)的不同文本表示方式选择合适的分类算法,然后将文本表示的语义信息提炼成类别信息;(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合,获得最终的金融广告识别模型。本发明可广泛应于在文本类广告中识别金融广告的场合。
-
-
-
-
-
-
-
-
-