大规模关键词匹配的方法和系统

    公开(公告)号:CN1648901A

    公开(公告)日:2005-08-03

    申请号:CN200510007089.5

    申请日:2005-02-03

    Abstract: 本发明提供针对大规模关键词匹配的方法和系统。按照所提供的方法和系统,首先将给定关键词集合进行规范化,在规范化的关键词集合(也可以直接在原始关键词集合上)上求解一个最优分组和组内最佳匹配方法,这个过程可以使用两种机制:一是使用动态规划的方法计算出一个最优分组,依照此结果将给定的关键词集合划分成若干个组;然后,针对每一个组,通过训练的方式得到一个最佳的匹配方法;一是通过训练建立一个边上带权重的有向图,求解此图的最短路径,得到最优分组和组内最佳匹配方法;然后对所有的组,使用训练的结果依次构造扫描自动机,形成一个扫描自动机序列,使输入的待扫描文本依次通过,得到最终的扫描结果。

    快速网络流特征检测的关键词匹配方法说明书

    公开(公告)号:CN1510592A

    公开(公告)日:2004-07-07

    申请号:CN02159352.3

    申请日:2002-12-26

    Abstract: 本发明是一种快速网络流特征检测的关键词匹配方法,它能根据关键词长的特性设计一种新型的多关键词匹配算法,可以提高特征检测系统性能;包括如下步骤:1)对关键词进行预处理;2)使用全部关键词计算出一个最小完美散列函数;3)计算在扫描阶段可能出现任何字符块可以跳跃的最大距离;4)使用全部关键词建立一张检测表;5)扫描处理;6)使用该检测表,快速的进行数据流特征检测。本发明适用于高性能网络信息监控、病毒检测、防火墙、入侵检测、网络信息内容安全等系统中。

    一种文本聚合方法以及文本推荐方法

    公开(公告)号:CN114443820B

    公开(公告)日:2025-02-07

    申请号:CN202210177000.3

    申请日:2022-02-25

    Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。

    一种面向知识获取的主动学习方法
    234.
    发明公开

    公开(公告)号:CN119294469A

    公开(公告)日:2025-01-10

    申请号:CN202411219818.2

    申请日:2024-09-02

    Abstract: 本发明提供一种面向知识获取的主动学习方法,用于对知识获取模型进行多次迭代训练,每次迭代包括:获取有多个有标签的样本的第一训练集和有多个未标注标签的样本的候选数据集,每个样本为一段文本数据,标签为在知识获取任务中为样本设置的知识类别标签;获取预设的查询函数,该函数用于计算样本对训练模型的价值量化值,样本的价值量化值是预设的不确定性指标和多个预设指标的加权和,多个预设指标包括动量指标、方差指标和损失值指标中任意两个或三个;根据利用查询函数计算的多个未标注标签的样本各自的价值量化值,选择有价值的样本,对其标注标签后添加到第一训练集,得到第二训练集;利用第二训练集训练模型根据文本数据进行知识类别预测。

    一种大规模高维向量最近邻数据检索方法及装置

    公开(公告)号:CN119089005A

    公开(公告)日:2024-12-06

    申请号:CN202410995162.7

    申请日:2024-07-24

    Abstract: 本发明提出了一种大规模高维向量最近邻数据检索方法和装置,面对当前包含海量信息的向量数据集,尽管现有向量查询索引创建方案能给出基于静态数据集的高指向性查询索引,在面临有大批量新增数据加入时缺乏高效的更新方法,难以维持查询索引的指向性。本发明提出了基于改进乘积量化的大规模高维向量查询索引的创建及动态更新方法,在保证较高的查询精度同时将更新消耗限制在较低水平,并维持更新后查询索引较高的指向性。

    一种基于主动学习的文本关系抽取方法及系统

    公开(公告)号:CN118551761A

    公开(公告)日:2024-08-27

    申请号:CN202310176248.2

    申请日:2023-02-24

    Abstract: 本发明提出一种基于主动学习的文本关系抽取方法和系统,包括:从文档库中筛选出所有和知识库中实体对相异的新实体对;使用噪声预测模型筛除所有新实体对中的噪声数据,得到中间实体对,使用关系预测模型对所有中间实体对进行打分,为得分高于阈值的中间实体打标注,形成新关系数据集;合并新关系数据集、重标注数据集和清洁数据集,形成远程监督关系抽取数据集;使用K个具有不同噪声转换矩阵的句子编码器分别拟合句子的向量表示在各标签类型上的噪声分布,以将真实标签的语义表征映射到噪声标签的语义表征空间中,得到句子的预测标签,其中K为标签类型总数;基于训练完成后的K个句子编码器产生的预测结果,得到目标句子中实体对的文本关系。

    基于模拟数据投毒攻击的推荐系统安全性测试方法及系统

    公开(公告)号:CN117668857A

    公开(公告)日:2024-03-08

    申请号:CN202311675503.4

    申请日:2023-12-07

    Abstract: 本发明提出一种基于模拟数据投毒攻击的推荐系统安全性测试方法和系统。通过梯度传递技术可以加速替代推荐系统的训练过程,以在有限时间内得到更准确的替代模型。梯度传递技术可以增强现有模拟攻击样本的准确性。通过加速替代模型训练得到更准确的替代模型,可以从替代模型中获得更好的优化指导,从而增强现有模拟攻击样本的准确性。梯度传递可以广泛增强基于替代系统的攻击方法,包括大部分现有的推荐系统模拟投毒攻击,这为后续的研发提供了基础。同时,也可以帮助发现了推荐系统的弱点,为设计更可靠的防御方法提供启示。

Patent Agency Ranking