-
公开(公告)号:CN118709688A
公开(公告)日:2024-09-27
申请号:CN202410746400.0
申请日:2024-06-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F40/295 , G06F40/242 , G06N5/04 , G06N3/0455 , G06N3/0499 , G06N3/082
Abstract: 本发明公开一种基于问答机制的文本变体词识别方法、装置及设备,属于文本信息识别领域。所述方法包括:构建变体词库,并通过汉字的字形和拼音的分别编码对所述变体词库进行数据增强;在数据增强后的变体词库上训练一变体词推理模型,所述变体词推理模型的网络结构包括:一语言表征模型和两个独立的全连接层;将问答模板与文本内容相连接后输入所述变体词推理模型,得到文本内容中变体词的起始位置概率和结束位置概率;基于变体词的起始位置概率和结束位置概率确定变体词的确切边界,得到文本内容中变体词的识别结果。本发明不仅能够提高变体词识别的准确性,还能够有效地降低模型的维护成本,增强其在实际应用中的适应性和鲁棒性。
-
公开(公告)号:CN118708728A
公开(公告)日:2024-09-27
申请号:CN202410746389.8
申请日:2024-06-11
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F16/33 , G06N5/04 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于难度序列推理的篇章级事件论元抽取方法及系统,属于文本信息抽取领域。本发明根据文档上下文选择对应的提示学习模板,对上下文和提示学习模板进行编码,得到上下文表示和提示表示,该提示表示包含论元角色的向量表示;根据每个论元角色的向量表示计算每个论元角色的预测困难分数,根据预测困难份数对论元角色进行排序,得到预测的推理路径;按照预测的推理路径的顺序进行信息推理,得到每个论元角色的推理概率分布;根据得到的每个论元角色的推理概率分布,预测每个论元角色的位置并抽取论元。本发明能够利用简单论元的信息来帮助抽取困难的论元。
-
公开(公告)号:CN115712738A
公开(公告)日:2023-02-24
申请号:CN202211429752.0
申请日:2022-11-15
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/383 , G06F40/289 , G06F18/25
Abstract: 本发明公开了一种融合多源数据的Telegram中文群组检索方法、装置及设备,所述方法包括:对获取检索词,并对所述检索词进行Telegram中文群组检索,生成多源融合群组;分析多源融合群组对应的群聊记录集合,得到特征词集合;基于特征词集合筛选所述多源融合群组,得到符合特征群组;对符合特征群组进行关联联想,生成关联联想群组;基于所述多源融合群组与符合特征群组集合,得到Telegram中文群组检索结果。本发明着重于解决Telegram中文群组检索困难。
-
公开(公告)号:CN118568487A
公开(公告)日:2024-08-30
申请号:CN202410548464.X
申请日:2024-05-06
Applicant: 国家计算机网络与信息安全管理中心 , 国家计算机网络与信息安全管理中心天津分中心 , 中国科学院自动化研究所
IPC: G06F18/214 , G06F18/25 , G06F18/2431 , G06N3/042
Abstract: 本申请实施例提供一种多模态轻量级动态知识增强方法、装置及存储介质,所述方法包括:基于图像小样本集的向量表征和文本小样本集的向量表征,以多模态视觉码书的形式构建图像小样本知识库和文本小样本知识库;基于单模态搜索的方式从所述图像小样本知识库或所述文本小样本知识库中确定待融合表征的跨模态表征,融合所述待融合表征和所述跨模态表征,得到知识增强后的融合表征。本申请实施例提供的多模态轻量级动态知识增强方法、装置及存储介质,在现有大规模预训练多模态模型的强大表征学习基础上,融合罕见且细粒度的跨模态表征信息,以此提高原始表征的质量,并显著提升对特定信息的检索效率。
-
公开(公告)号:CN118520929A
公开(公告)日:2024-08-20
申请号:CN202411003497.2
申请日:2024-07-25
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06N3/09 , G06N3/0455 , G06F40/194
Abstract: 本发明提供一种文本相似度确定模型的训练方法及文本相似度计算方法,属于计算机技术领域,该训练方法包括:获取第一数据集和第二数据集;第一数据集中包括至少一个短文本数据对;第二数据集中包括至少一个目标文本数据对,目标文本数据对中的两个目标文本数据至少一个为长文本数据;基于句向量对比模型,获取第二数据集中各目标文本数据的关键表述;句向量对比模型是基于第一数据集和第一损失函数对第一预训练模型训练得到的;基于各关键表述和第二损失函数,对第二预训练模型进行训练,得到文本相似性确定模型。通过在判定过程中引入短文本和长文本,提升了文本相似度确定模型输出结果的准确性。
-
公开(公告)号:CN115034286B
公开(公告)日:2024-07-02
申请号:CN202210435266.3
申请日:2022-04-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/24 , G06F18/214 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种基于自适应损失函数的异常用户识别方法和装置,其中,该方法包括:获取web系统的用户行为日志数据样本,并将用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本;进行数据预处理得到训练数据集;基于训练数据集的输入特征训练第一自编码器模型,并基于第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数;迭代优化第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型;基于第二自编码器模型,对无标签数据样本进行异常点检测,以识别异常用户。本发明解决实际业务场景中,无标签数据中存在异常点,采用固定损失函数难以提高准确率,误报率高的技术问题。
-
公开(公告)号:CN118014049A
公开(公告)日:2024-05-10
申请号:CN202410177798.0
申请日:2024-02-08
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院自动化研究所
IPC: G06N3/09 , G06N3/0455 , G06F18/22 , G06F18/2431 , G06F40/30 , G06V20/70 , G06V10/40 , G06V10/82
Abstract: 本发明提供一种图文互生模型的训练方法,该方法包括:基于模态自感单元从样本模态数据中提取自感信息;模态自感单元基于自注意力网络通过多任务有监督训练得到;基于图文编码器对自感信息进行编码,得到隐空间特征,并对隐空间特征进行多模态扩散处理,得到扩散后的目标模态类型的隐空间特征;基于图文解码器对自感信息和扩散后的目标模态类型的隐空间特征进行解码,得到解码信息;根据解码信息和多任务损失函数对图文编码器和图文解码器进行训练,得到图文互生模型;目标损失包括重建损失、图像类的理解辅助任务对应损失和文本类的理解辅助任务对应损失确定。本发明所述方法提高了图文互生对应模型的性能和可适配性。
-
公开(公告)号:CN114978585B
公开(公告)日:2024-02-27
申请号:CN202210380490.7
申请日:2022-04-12
Applicant: 国家计算机网络与信息安全管理中心 , 北京赋乐科技有限公司
IPC: H04L9/40 , G06F18/2135 , G06F18/243 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/08 , G06N20/20
Abstract: 本公开的实施例提供了基于流量特征的深度学习对称加密协议识别方法、装置、设备和计算机可读存储介质。所述方法包括获取网络流量数据;对所述网络流量数据进行预处理,得到对称加密流量;基于主成分分析‑皮尔森系数法流量识别模型和基于注意力机制的CNN‑LSTM算法流量识别模型,构建基于流量特征的对称加密协议识别模型;将所述对称加密流量,输入至所述基于流量特征的对称加密协议识别模型,完成对所述网络流量数据的识别。以此方式,实现了对对称加密协议的高效识别。
-
公开(公告)号:CN116821747A
公开(公告)日:2023-09-29
申请号:CN202310439834.1
申请日:2023-04-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/24 , G06F18/25 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种基于图文多模态信息融合的互联网不良应用分类识别方法,针对不良应用具有识别效果佳的优点。互联网不良应用分类识别方法包括:收集网站应用,并对网络应用进行类别标注;提取网站应用的应用名称并基于此构建第一向量;对网络应用进行沙盒运行,以获取网络应用的访问信息以及运行界面截图;基于访问信息构建第二向量;从运行界面截图中提取有效文本字符并基于此构建第三向量;融合第一向量、第二向量、第三向量,以获得融合向量;将融合向量作为输入,训练互联网不良应用分类识别模型,互联网不良应用分类识别模型包括全连接层、Softmax层、损失函数;基于训练完成的互联网不良应用分类识别模型对待识别的网站应用进行分类识别。
-
公开(公告)号:CN116628497A
公开(公告)日:2023-08-22
申请号:CN202310583452.6
申请日:2023-05-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/214 , G06F18/2415
Abstract: 本发明公开了一种基于联邦泛化数据处理方法、系统、计算设备及存储介质,所述方法包括:基于联邦对比学习进行数据建模,将数据样本标记为异常样本和正常样本的不同类别,每个本地模型在其本地数据集上进行联邦检测任务的迭代训练,并逐步更新其自己的参数;本地更新后,在可信的中央服务器聚合所有参与联邦检测任务的本地模型的参数,经过计算后聚合形成一个全局模型,然后服务器将所述全局模型分发给参与的终端,进行下次迭代训练。本发明实现在“数据孤岛”状态下对于样本的充分学习和利用,基于对比学习技术,拉近正常样本之间的距离,拉远异常样本距离,从而实现在保护隐私的前提下,对数据的建模,并为异常检测打下基础。
-
-
-
-
-
-
-
-
-