一种基于Spark框架进行全文检索的实现方法

    公开(公告)号:CN107943952A

    公开(公告)日:2018-04-20

    申请号:CN201711194929.2

    申请日:2017-11-24

    Abstract: 本发明公开了一种基于Spark框架进行全文检索的实现方法,属于大数据处理领域。该方法首先接收待执行SQL语句,生成语法树并转换成相应的逻辑计划;然后,从Hive中获取检索所有表的元数据,寻找支持全文检索的字段,并通过字段哈希索引对数据块进行初步裁剪;继而,根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置;最后,将逻辑执行计划转换为可分布式执行的任务集合,通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程;对任务进行分发执行,并汇总执行结果,迭代获取最终结果。该方法具有较高的效率,可以快速的完成海量数据的全文检索,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。

    一种视频关键帧提取算法
    12.
    发明公开

    公开(公告)号:CN107832694A

    公开(公告)日:2018-03-23

    申请号:CN201711047162.0

    申请日:2017-10-31

    CPC classification number: G06K9/00744 G06F16/783

    Abstract: 本发明公开了一种视频关键帧提取算法,属于信息安全技术领域。该算法首先计算当前输入视频流中某帧的水平方向的黑边宽度和垂直方向的黑边高度,以及该帧有效图像区域的宽度和高度;然后计算该帧的有效图像区域的特征信息,并与上一帧比较,计算差异度;差异度大于阈值时,将该差异帧中的数据与缓存区中的每帧数据分别比较,计算该帧的相似度;该差异帧的相似度大于阈值时,将该差异帧与缓存区中的该某帧视为相似,将非差异帧计数加1,达到非差异帧累计数最大值,输出该帧为差异帧并写入缓存区,统计该帧的Y值的方差值和UV值的方差值,并输出关键帧和空白帧。本发明算法通过C语言实现,可应用于多视频多线程的调用,适应性强,高效快速。

    一种基于消息队列的分布式数据实时去重方法

    公开(公告)号:CN105183858A

    公开(公告)日:2015-12-23

    申请号:CN201510572334.0

    申请日:2015-09-10

    CPC classification number: G06F17/30303 G06F17/30386

    Abstract: 本发明公开一种基于消息队列的分布式数据实时去重方法,根据消息网络接口,配置若干台数据从服务器,并加入消息网络;为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;根据原始数据信息,去重数据信息及去重服务信息确定从服务器;原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;数据从去重服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;去重数据消费者查询去重服务信息,并从相应的去重数据队列中消费数据;主服务器根据从服务器信息更新从服务器信息。

    一种基于Spark框架进行全文检索的实现方法

    公开(公告)号:CN107943952B

    公开(公告)日:2020-10-13

    申请号:CN201711194929.2

    申请日:2017-11-24

    Abstract: 本发明公开了一种基于Spark框架进行全文检索的实现方法,属于大数据处理领域。该方法首先接收待执行SQL语句,生成语法树并转换成相应的逻辑计划;然后,从Hive中获取检索所有表的元数据,寻找支持全文检索的字段,并通过字段哈希索引对数据块进行初步裁剪;继而,根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置;最后,将逻辑执行计划转换为可分布式执行的任务集合,通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程;对任务进行分发执行,并汇总执行结果,迭代获取最终结果。该方法具有较高的效率,可以快速的完成海量数据的全文检索,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。

    一种基于关键字词频特征的多模式匹配方法

    公开(公告)号:CN105373601A

    公开(公告)日:2016-03-02

    申请号:CN201510755911.X

    申请日:2015-11-09

    CPC classification number: G06F16/245 G06F21/55

    Abstract: 本发明提供一种基于关键字词频特征的多模式匹配方法,首先从已知的信息数据库中提取关键字并统计出现频率作为其词频信息,其次采用构造含有关键字词频信息的二叉树完成其中的模式串匹配,在字符匹配过程中若出现字符不相等,则与该不匹配字符所在节点的兄弟节点所含字符进行匹配。其利用信息来源的模式的关键字词频信息构造基于字典树的二叉树完成其中的模式串的匹配,并与AC算法进行了比较。传统的AC算法需要维护三张表,并且在模式匹配过程中会频繁访问这三张表;本发明的一种基于关键字词频特征的多模式匹配方法更多的利用了模式本身的词频信息,并不需要维护过多的信息,这就大大减少了系统的内存消耗。

    一种基于文件序列化的自动机远程分发和初始化方法

    公开(公告)号:CN105302851A

    公开(公告)日:2016-02-03

    申请号:CN201510572332.1

    申请日:2015-09-10

    CPC classification number: G06F17/30194

    Abstract: 本发明提供一种基于文件序列化的自动机远程分发和初始化方法,将位于内存的自动机序列化成本地文件,然后将序列化后的文件进行分发和快速部署,以替代原有的基于规则和特征的分发和部署方式。该方法包括步骤:S1.配置后端服务器,将特征和规则进行初始化生成自动机;S2.在所述后端服务器上将自动机序列化到本地,以文件形式存储;S3.配置分发网络和n台处理机,所述后端服务器将文件形式存在的自动机通过分发网络发送给所有需要进行匹配处理的处理机;S4.每台处理机都接收文件形式存在的自动机,并初始化到内存;S5.处理机根据新生成自动机进行特征的匹配和检测处理。

Patent Agency Ranking