-
公开(公告)号:CN115410207A
公开(公告)日:2022-11-29
申请号:CN202110588830.0
申请日:2021-05-28
Applicant: 国家计算机网络与信息安全管理中心天津分中心 , 中国科学院信息工程研究所
IPC: G06V30/148 , G06F40/289 , G06F40/216
Abstract: 本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。
-
公开(公告)号:CN115410207B
公开(公告)日:2023-08-29
申请号:CN202110588830.0
申请日:2021-05-28
Applicant: 国家计算机网络与信息安全管理中心天津分中心 , 中国科学院信息工程研究所
IPC: G06V30/148 , G06F40/289 , G06F40/216
Abstract: 本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。
-
公开(公告)号:CN115700514A
公开(公告)日:2023-02-07
申请号:CN202110806905.8
申请日:2021-07-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F16/332 , G06F40/30 , G06F18/2411
Abstract: 本发明公开了一种结合BIGRU和多头注意的事件主体提取方法及装置,包括:把文本数据转化为文本输入序列X;利用BiGRU网络获取文本输入序列X对应的向量XB;基于文本输入序列X与向量XB进行多头注意力计算;依据注意力计算结果,获取事件主体提取结果。本发明使用BIGRU网络学习上下文语义特征,通过引入多头注意力机制捕获序列中的关键特征信息,提高了工作效率及准确性。
-
公开(公告)号:CN115409203A
公开(公告)日:2022-11-29
申请号:CN202210879263.9
申请日:2022-07-25
Applicant: 中国科学院信息工程研究所
IPC: G06N20/20 , G06F16/9535 , G06F16/958
Abstract: 本发明公开了一种基于模型无关元学习的联邦推荐方法及系统。本方法为:1)服务器选取多个客户端,并将所选推荐模型发送至每一客户端;2)各客户端将本地数据划分为支持集和查询集;3)各客户端基于本地支持集训练并更新收到的推荐模型;4)各客户端将更新后的推荐模型在查询集上验证并计算模型梯度;5)服务器收集各客户端计算的梯度,基于平均梯度更新推荐模型并将其发送给各客户端进行下一轮次的训练;6)重复步骤3)~5)直到设定条件,各客户端得到一公共的推荐模型;7)每一客户端利用本地数据训练该公共的推荐模型,得到各自的个性化推荐模型;8)客户端m将目标应用场景中的交互数据输入个性化推荐模型,获取个性化推荐结果。
-
公开(公告)号:CN110378144B
公开(公告)日:2021-09-07
申请号:CN201910481273.5
申请日:2019-06-04
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种数据即服务模式下支持范围查询的隐私保护方法和系统。在数据即服务的管理模式中,数据服务商的安全策略可能并不完备,数据所有者对其并不完全信任。在这样的环境下,设计一个能够完备的、能够保证数据隐私安全同时数据查询相对高效的机制是很有必要的。已有的数据即服务的管理模式中存在时间效率低和隐私信息攻击的风险。本发明提出一个完备、隐私安全并且支持范围查询和数据验证的方案,其核心是通过对数据分区,在同一分区内的数据采取哈希函数部分和的方式获得索引;为了能够在范围查询时避免假命中数据和数据验证,引入了查询精度和验证矩阵。通过实验验证,本发明具有很好的时间效率,同时能够很好地减少数据信息泄露。
-
公开(公告)号:CN113239663A
公开(公告)日:2021-08-10
申请号:CN202110309085.1
申请日:2021-03-23
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F40/126 , G06F40/216 , G06F40/242 , G06F40/284 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于知网的多义词中文实体关系识别方法,其步骤包括:1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合;3)基于知网生成每一语料的词颗粒度语义向量集合;4)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。
-
公开(公告)号:CN112069312A
公开(公告)日:2020-12-11
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN110378144A
公开(公告)日:2019-10-25
申请号:CN201910481273.5
申请日:2019-06-04
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种数据即服务模式下支持范围查询的隐私保护方法和系统。在数据即服务的管理模式中,数据服务商的安全策略可能并不完备,数据所有者对其并不完全信任。在这样的环境下,设计一个能够完备的、能够保证数据隐私安全同时数据查询相对高效的机制是很有必要的。已有的数据即服务的管理模式中存在时间效率低和隐私信息攻击的风险。本发明提出一个完备、隐私安全并且支持范围查询和数据验证的方案,其核心是通过对数据分区,在同一分区内的数据采取哈希函数部分和的方式获得索引;为了能够在范围查询时避免假命中数据和数据验证,引入了查询精度和验证矩阵。通过实验验证,本发明具有很好的时间效率,同时能够很好地减少数据信息泄露。
-
公开(公告)号:CN105989061A
公开(公告)日:2016-10-05
申请号:CN201510066798.4
申请日:2015-02-09
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种滑动窗口下多维数据重复检测快速索引方法。该方法采用压缩计数型布隆过滤器矩阵数组来维护滑动窗口内的数据项,在滑动窗口内维护多个子窗口,队首子窗口以滑动方式接收新元素,队尾子窗口以滑动方式淘汰老元素;每个独立子窗口由一个计数型布隆过滤器矩阵组成,计数型布隆过滤器矩阵具备面向多维数据的维度删减能力,并且其内部维护计数器单元。通过对所有计数型布隆过滤器矩阵均采用相同的设计容量并共享同一组k个哈希函数,能够有效提升重复元素检测效率;通过在计数器单元中维护系统基础时钟,能够有效支持滑动窗口的元素隐式删除;通过矩阵方式维护多维数据,有效降低多维数据的组合误差率,降低整体误判率。
-
公开(公告)号:CN104794158A
公开(公告)日:2015-07-22
申请号:CN201510117236.8
申请日:2015-03-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。
-
-
-
-
-
-
-
-
-