-
公开(公告)号:CN1648901A
公开(公告)日:2005-08-03
申请号:CN200510007089.5
申请日:2005-02-03
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供针对大规模关键词匹配的方法和系统。按照所提供的方法和系统,首先将给定关键词集合进行规范化,在规范化的关键词集合(也可以直接在原始关键词集合上)上求解一个最优分组和组内最佳匹配方法,这个过程可以使用两种机制:一是使用动态规划的方法计算出一个最优分组,依照此结果将给定的关键词集合划分成若干个组;然后,针对每一个组,通过训练的方式得到一个最佳的匹配方法;一是通过训练建立一个边上带权重的有向图,求解此图的最短路径,得到最优分组和组内最佳匹配方法;然后对所有的组,使用训练的结果依次构造扫描自动机,形成一个扫描自动机序列,使输入的待扫描文本依次通过,得到最终的扫描结果。
-
公开(公告)号:CN1510592A
公开(公告)日:2004-07-07
申请号:CN02159352.3
申请日:2002-12-26
Applicant: 中国科学院计算技术研究所
Abstract: 本发明是一种快速网络流特征检测的关键词匹配方法,它能根据关键词长的特性设计一种新型的多关键词匹配算法,可以提高特征检测系统性能;包括如下步骤:1)对关键词进行预处理;2)使用全部关键词计算出一个最小完美散列函数;3)计算在扫描阶段可能出现任何字符块可以跳跃的最大距离;4)使用全部关键词建立一张检测表;5)扫描处理;6)使用该检测表,快速的进行数据流特征检测。本发明适用于高性能网络信息监控、病毒检测、防火墙、入侵检测、网络信息内容安全等系统中。
-
公开(公告)号:CN114443820B
公开(公告)日:2025-02-07
申请号:CN202210177000.3
申请日:2022-02-25
Applicant: 中国科学院计算技术研究所
IPC: G06F16/334 , G06F16/3332 , G06F16/31 , G06F40/216 , G06F40/237 , G06F40/284
Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。
-
公开(公告)号:CN119294469A
公开(公告)日:2025-01-10
申请号:CN202411219818.2
申请日:2024-09-02
Applicant: 中国科学院计算技术研究所 , 苏州空天信息研究院
IPC: G06N3/091 , G06N3/045 , G06F18/214
Abstract: 本发明提供一种面向知识获取的主动学习方法,用于对知识获取模型进行多次迭代训练,每次迭代包括:获取有多个有标签的样本的第一训练集和有多个未标注标签的样本的候选数据集,每个样本为一段文本数据,标签为在知识获取任务中为样本设置的知识类别标签;获取预设的查询函数,该函数用于计算样本对训练模型的价值量化值,样本的价值量化值是预设的不确定性指标和多个预设指标的加权和,多个预设指标包括动量指标、方差指标和损失值指标中任意两个或三个;根据利用查询函数计算的多个未标注标签的样本各自的价值量化值,选择有价值的样本,对其标注标签后添加到第一训练集,得到第二训练集;利用第二训练集训练模型根据文本数据进行知识类别预测。
-
公开(公告)号:CN119204013A
公开(公告)日:2024-12-27
申请号:CN202411218721.X
申请日:2024-09-02
Applicant: 中国科学院计算技术研究所 , 苏州空天信息研究院
IPC: G06F40/295 , G06F40/284 , G06F16/35 , G06F18/241 , G06N3/042 , G06N3/0455 , G06N3/048 , G06N3/096 , G06N3/0442
Abstract: 本发明提供了一种基于原型网络门控机制的类增量知识获取方法,包括获取待预测的文本;将文本输入经知识获取领域的类增量学习方法训练得到的编码模块,得到各词元的特征向量,并各词元的特征向量构建每个知识单元的单元表示;利用预设的原型网络门控机制确定各知识单元所属的类别,包括:获取每个知识单元的单元表示与各类别的原型表示之间的相似度,根据相似度筛选部分匹配的专家网络对知识单元进行预测,得到筛选出的专家网络对知识单元是否属于该专家网络对应类别的预测值;对于重叠的知识单元,仅保留其中具有最高预测值的知识单元的预测值;如果一个知识单元在所有类别的预测值都小于预设阈值,则该知识单元不属于任何专家网络所对应的类别。
-
公开(公告)号:CN119089005A
公开(公告)日:2024-12-06
申请号:CN202410995162.7
申请日:2024-07-24
Applicant: 中国科学院计算技术研究所
IPC: G06F16/901 , G06F16/903 , G06F16/906
Abstract: 本发明提出了一种大规模高维向量最近邻数据检索方法和装置,面对当前包含海量信息的向量数据集,尽管现有向量查询索引创建方案能给出基于静态数据集的高指向性查询索引,在面临有大批量新增数据加入时缺乏高效的更新方法,难以维持查询索引的指向性。本发明提出了基于改进乘积量化的大规模高维向量查询索引的创建及动态更新方法,在保证较高的查询精度同时将更新消耗限制在较低水平,并维持更新后查询索引较高的指向性。
-
公开(公告)号:CN118551761A
公开(公告)日:2024-08-27
申请号:CN202310176248.2
申请日:2023-02-24
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295 , G06F40/30 , G06N5/02 , G06F16/35 , G06N3/084 , G06N3/047 , G06N3/0464
Abstract: 本发明提出一种基于主动学习的文本关系抽取方法和系统,包括:从文档库中筛选出所有和知识库中实体对相异的新实体对;使用噪声预测模型筛除所有新实体对中的噪声数据,得到中间实体对,使用关系预测模型对所有中间实体对进行打分,为得分高于阈值的中间实体打标注,形成新关系数据集;合并新关系数据集、重标注数据集和清洁数据集,形成远程监督关系抽取数据集;使用K个具有不同噪声转换矩阵的句子编码器分别拟合句子的向量表示在各标签类型上的噪声分布,以将真实标签的语义表征映射到噪声标签的语义表征空间中,得到句子的预测标签,其中K为标签类型总数;基于训练完成后的K个句子编码器产生的预测结果,得到目标句子中实体对的文本关系。
-
公开(公告)号:CN118070868A
公开(公告)日:2024-05-24
申请号:CN202410293163.7
申请日:2024-03-14
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于边缘计算架构的模型结构化剪枝方法及装置,该方法包括:根据集群中每一边缘设备的硬件资源信息,对边缘设备进行分组;对于同一组的边缘设备,将神经网络加速器在该边缘设备硬件的实际运行时间与内存资源消耗作为资源约束条件,对该边缘设备上部署的神经网络模型进行剪枝;校准修剪后的神经网络模型。该方法提高了计算设备的硬件处理速度,降低了内存消耗,进而提升了计算机系统的内部性能。
-
公开(公告)号:CN118070071A
公开(公告)日:2024-05-24
申请号:CN202410353576.X
申请日:2024-03-26
Applicant: 中国科学院计算技术研究所
IPC: G06F18/22 , G06F18/23213 , G06F18/2433 , G06F18/25 , G06N3/0464 , G06N3/042 , G06N3/0455 , G06Q50/00 , G06N3/048
Abstract: 本发明提出一种基于图卷积聚类的社交机器人群体检测方法,包括:使用已知账号的个体特征,训练专家模型;获取目标账号的个体特征,通过该专家模型将该目标账号识别为种子账号或待定账号;以图卷积聚类方法,将该目标账号划分为多个群体,获取每个群体的群体特征;将该目标账号的个体特征,与其所在群体的群体特征进行拼接融合,获得该目标账号的识别特征;将该待定账号的识别特征与其所在群体的种子账号的识别特征进行相似度比较,以相似度大于识别阈值的待定账号为识别账号;将该种子账号和该识别账号标识为社交机器人。本发明还提出一种基于图卷积聚类的社交机器人群体检测装置,以及一种计算机可读存储介质和一种电子设备。
-
公开(公告)号:CN117668857A
公开(公告)日:2024-03-08
申请号:CN202311675503.4
申请日:2023-12-07
Applicant: 中国科学院计算技术研究所
IPC: G06F21/57 , G06F18/22 , G06F18/214
Abstract: 本发明提出一种基于模拟数据投毒攻击的推荐系统安全性测试方法和系统。通过梯度传递技术可以加速替代推荐系统的训练过程,以在有限时间内得到更准确的替代模型。梯度传递技术可以增强现有模拟攻击样本的准确性。通过加速替代模型训练得到更准确的替代模型,可以从替代模型中获得更好的优化指导,从而增强现有模拟攻击样本的准确性。梯度传递可以广泛增强基于替代系统的攻击方法,包括大部分现有的推荐系统模拟投毒攻击,这为后续的研发提供了基础。同时,也可以帮助发现了推荐系统的弱点,为设计更可靠的防御方法提供启示。
-
-
-
-
-
-
-
-
-