一种状态爆炸型正则表达式的识别方法及系统

    公开(公告)号:CN113627164A

    公开(公告)日:2021-11-09

    申请号:CN202110784458.0

    申请日:2021-07-12

    Abstract: 本发明公开了一种状态爆炸型正则表达式的识别方法及系统。本方法为:1)对于一待识别的正则表达式,生成其对应的NFA图,得到该正则表达式对应的NFA图集合;2)对于NFA图集合中的每一NFA图,提取该NFA图中的所有根子图并将其输入graph2vec模型,训练得到该NFA图的嵌入表示;3)利用分类模型处理该NFA图的嵌入化表示,判定该正则表达式是否为状态爆炸型正则表达式。该方法可高效快速的批量处理正则表达式,满足在线系统的高效处理性能与较低空间消耗的需求。

    一种基于力导引算法的图数据可视化布局优化方法

    公开(公告)号:CN107818149B

    公开(公告)日:2021-10-08

    申请号:CN201710992552.9

    申请日:2017-10-23

    Abstract: 本发明涉及一种基于力导引算法的图数据可视化布局优化方法。该方法在力导引算法的循环迭代过程中增加以下处理步骤,以优化图数据可视化布局:在结点粘连的情况下,通过随机函数给出结点弹开的位置和结点弹开的方向,从而将粘连结点彼此分开一定的距离,使得结点粘连情况下的吸引力和排斥力能够计算。进一步地,本发明在力导引算法的位移计算中对参数delta值采用梯度设置,使得图数据可视化布局过程减少震荡并快速收敛。本发明能够解决基础力导引布局算法中存在的上述问题,在优化算法布局效果的同时,提升算法的布局效率。

    一种基于被动DNS流量的递归域名服务器用户量估计方法

    公开(公告)号:CN112866039A

    公开(公告)日:2021-05-28

    申请号:CN202110254552.5

    申请日:2021-03-05

    Abstract: 本发明提出一种基于被动DNS流量的递归域名服务器用户量估计方法,涉及网络测量技术领域,通过分析被动DNS流量,能够实现在经过NAT地址转换无法获取用户真实源IP地址,以及经过递归域名服务器RDNS缓存压缩后用户原始DNS请求包数量减少的真实网络场景下,估计使用该递归域名服务器的所有用户量范围。利用RDNS缓存压缩后的DNS请求包计算RDNS内部用户量下界。利用RDNS缓存压缩后的DNS请求包和响应包,把由该RDNS缓存压缩后的DNS请求包变成内部用户发起的模拟DNS请求包,然后利用生成的模拟DNS请求包计算RDNS内部用户量上界。通过本方法得到的估计用户量与真实用户量的偏差范围较小,效果优异。

    数字查找树的压缩表示方法、系统、存储介质及规则匹配装置

    公开(公告)号:CN108399152B

    公开(公告)日:2021-05-07

    申请号:CN201810119184.1

    申请日:2018-02-06

    Abstract: 本发明涉及一种数字查找树的压缩表示方法、系统、存储介质及规则匹配装置。该方法包括:采用完全矩阵表示法建立数字查找树的结点,并建立状态转换表;建立基值表,并利用数组记录叶子结点状态中对应的规则编号;利用基值表对状态行进行归一化,生成归一化矩阵;利用数组来记录归一化矩阵的状态,对归一化矩阵的状态进行去重,得到约简的状态转移矩阵;利用位图对约简的状态转移矩阵进行修正,使其中的元素能够用一个字节来表示;利用基值表、记录归一化矩阵状态的数组、位图和修正后的矩阵进行状态的匹配,并输出匹配结果。本发明以完全矩阵表示法为原型,能够保证结点间状态转移的时间复杂度为O(1),同时可大幅度减少数据结构的存储空间。

    一种串匹配场景下数据集生成方法、设备和可读存储介质

    公开(公告)号:CN107515897B

    公开(公告)日:2021-02-02

    申请号:CN201710589808.1

    申请日:2017-07-19

    Abstract: 本发明涉及一种串匹配场景下数据集生成方法、设备和可读存储介质。该方法包括以下步骤:1)独立地生成模式串的每个字符,形成预设规模和预设长度的随机模式串集合;2)根据已生成的随机模式串集合,构造指定命中水平的文本数据集;3)输出生成的随机模式串集合和文本数据集。该设备包括通过总线连接的接收器、处理器、存储器和发送器,所述存储器用于存储串匹配场景下数据集生成指令。本发明能够生成预设规模预设长度的随机模式串集合,根据已生成的随机模式串集合可以构造指定命中水平的文本数据集,该随机模式串集合和文本数据集能够用于串匹配算法的功能测试和性能测试,对串匹配算法的进一步研究和性能提升有重要的作用。

    基于字符集变换的自动机空间压缩方法及系统

    公开(公告)号:CN110401451B

    公开(公告)日:2020-12-04

    申请号:CN201910505421.2

    申请日:2019-06-12

    Abstract: 本发明提供一种基于字符集变换的自动机空间压缩方法,步骤包括:将模式串集构建成自动机,并生成状态转移矩阵;读取状态转移矩阵的各个状态行,计算最佳变换参数、最小有效后继状态和最大有效后继状态;根据状态转移矩阵和最佳变换参数,记录数据结构,将状态行替换为变换后的有效状态行;读取目标文本的字符,根据字符当前状态,利用双射函数进行字符变换,得到变换后的字符,符合条件下得到后继状态,实现压缩。本发明还提供一种基于字符集变换的自动机空间压缩系统,包括规则编译器、变换参数生成器、状态行变换器、比较器、压缩自动机存储器、状态寄存器、字符集变换器及文本扫描器。

    一种基于位图的布尔表达式存储、匹配方法和系统

    公开(公告)号:CN106469218B

    公开(公告)日:2019-11-19

    申请号:CN201610811459.9

    申请日:2016-09-08

    Abstract: 本发明公开了一种基于位图的布尔表达式存储、匹配方法和系统。本发明存储阶段:针对多个布尔表达式的各个子项,对其相应的布尔表达式序号和所在位置进行存储,并按照子项值的大小升序排序,同时记录每个布尔表达式子项数目;对子项值建立索引。匹配阶段:开辟数组位向量bitmap存储每个布尔表达式的匹配情况,将每个能匹配的布尔表达式所对应的位置置为1,判断bitmap中1的个数是否与其子项数目一致,若一致,则输出对应序号,并将bitmap[k]置为‑1以防止重复匹配该布尔表达式,否则继续匹配下一文本项。本系统包括系统预处理部件、存储子项部件、构建索引部件、访问信息部件和返回信息部件。本发明大大提高了查询效率。

    一种基于深度学习的跨网络用户对齐方法

    公开(公告)号:CN110347932A

    公开(公告)日:2019-10-18

    申请号:CN201910479105.2

    申请日:2019-06-04

    Abstract: 本发明公开了一种基于深度学习的跨网络用户对齐方法。本方法为:1)利用已知标签的用户对集合及用户对的结构信息训练深度学习框架;其中 为已对齐的用户对,即社交网络GA中第i个用户 与社交网络GB中第m个用户 是同一用户;2)根据社交网络的结构信息分别从社交网络GA、社交网络GB中提取待对齐用户的结构信息 以及 并将其以用户对为单位输入训练后的深度学习框架,确定该用户对是否属于同一个真实人进行分类预测。本发明大大提高了跨网络用户对齐的准确性。

    一种多模式串匹配方法和系统

    公开(公告)号:CN104881439B

    公开(公告)日:2019-03-22

    申请号:CN201510236364.4

    申请日:2015-05-11

    Abstract: 本发明涉及一种空间高效的多模式串匹配方法和系统。首先提出了一种新的存储模式串的数据结构—HashTrie,利用位向量表将原模式串矩阵存储为一维表的形式,避开传统方法存储自动机的状态转移矩阵问题;利用递归的哈希函数方法求出这个特殊的位向量表,以达到节约存储空间的目的;在哈希函数计算过程中,利用位运算技巧,将其转化为简单高效的位与运算操作;另外在HashTrie构造和关键词查找过程中均使用Rank技术,提高了搜索的空间效率和时间效率。本发明极大地降低了内存开销和预处理时间,更能满足实时入侵检测系统对规则生效的时效性要求,更适合于模式串集合规模较大、模式串长度较短的多模式串实时匹配问题。

    一种微博热点事件的地理位置发现方法

    公开(公告)号:CN105630884B

    公开(公告)日:2019-03-08

    申请号:CN201510957634.0

    申请日:2015-12-18

    Abstract: 本发明公开了一种微博热点事件的地理位置发现方法。本方法为:1)基于行政区规划地理词词典及中文简称词的命名规则构建一简称词词典,然后将该简称词词典与全称词词典进行关联;2)根据事件关键字,获取包含该事件关键字的微博信息;3)对获取的微博信息进行分词处理,得到该微博的分词集合,然后判断该分词集合中每一名词是否在该简称词词典或全称词词典中,如果存在则将该名词作为候选地理位置词保留;当该微博中出现多个候选地理位置词时,则选取一候选地理位置词作为该微博的地点;4)获取确定的每一地点的地理位置经纬度信息,然后对得到的地理位置经纬度信息进行聚类,根据聚类中心判断出事件爆发地点。本方法可更好的了解突发事件。

Patent Agency Ranking