Patent search ap:("国家计算机网络与信息安全管理中心") AND inv:"李斌斌" Page 2

11.

发明授权
一种基于Lucene的支持表达式的自定义相关度排序算法有权

公开(公告)号：CN107220347B

公开(公告)日：2020-07-03

申请号：CN201710390490.4

申请日：2017-05-27

Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司

Inventor： 苏沐冉 , 吴震 , 毛洪亮 , 唐积强 , 王秀文 , 马秀娟 , 徐小磊 , 张露晨 , 李焱余 , 李传海 , 李斌斌 , 孟宪文 , 谢铭

IPC: G06F16/338 , G06F16/33

Abstract: 本发明公开了一种基于Lucene的支持表达式的自定义相关度排序算法，属于计算机技术领域。所述算法包括：用表达式解析模块对用户输入的表达式进行合法性检查，并转化为系统可以计算的形式；表达式计算模块根据表达式中的参数，在Lucene索引中提取出相应字段进行计算；相关度排序模块对表达式的计算结果进行排序；最后用结果整合模块对各数据节点返回的计算结果进行整合，将最终自定义表达式的排序结果返回给用户。本发明支持多字段间进行表达式计算，并按照其进行排序，优于单纯的文档打分排序机制，而且该发明支持更多的函数计算，且该算法适用于分布式的大数据平台上。

12.

发明公开
面向Spark JDBC的任务优先级控制的实现方法及装置失效

公开(公告)号：CN109857535A

公开(公告)日：2019-06-07

申请号：CN201910122390.2

申请日：2019-02-18

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 刘欣然 , 张鸿 , 惠榛 , 吕雁飞 , 马秉楠 , 李斌斌 , 王振宇 , 黄航 , 王树鹏

IPC: G06F9/48 , G06F9/50 , G06F16/242 , G06F16/25

Abstract: 本发明公开了一种面向Spark JDBC的任务优先级控制的实现方法及装置，所述方法包括：SparkJdbc服务在启动时根据预先编写好的优先级队列描述XML文件建立多个任务优先级队列；接收用户通过Jdbc接口下发的指定优先级队列命令，完成Jdbc会话级别的优先级设置；接收用户提交的检索SQL，将SQL语句经过多个分析规划过程后生成一个Spark Task集合并被添加到相应名称的目标优先级队列中；通过资源调度器根据各个优先级队列之间的资源分配策略和队列内部的资源分配策略进行硬件资源的调度分配，将Spark Task分发到各个计算节点上的Task执行器上进行执行。

13.

发明公开
一种基于多文件格式自动识别的跨地域关联统计方法无效

公开(公告)号：CN107168984A

公开(公告)日：2017-09-15

申请号：CN201710165255.7

申请日：2017-03-20

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 毕慧 , 付戈 , 李超 , 王振宇 , 李斌斌 , 王树鹏

IPC: G06F17/30

CPC classification number: G06F17/30194 , G06F17/30424

Abstract: 本发明涉及一种基于多文件格式自动识别的跨地域关联统计方法，属于大数据检索分析领域。该方法通过统一SQL查询入口接收SQL查询请求；然后对SQL查询请求进行解析，以识别查询的不同文件格式；然后全局节点将解析成功后的查询请求发送到对应的分节点；然后各分节点进行相应的查询操作，并将查询结果回传给全局节点；最后全局节点对各分节点回传的数据进行关联统计并输出统计结果。本发明可以应用在离线或在线数据统计场景中，能够实现多种文件格式的自动识别，突破了地域限制，能够将不同数据中心的数据进行关联统计。

14.

发明公开
一种基于MPP引擎的跨数据中心快速查询方法和系统失效

公开(公告)号：CN107066546A

公开(公告)日：2017-08-18

申请号：CN201710165501.9

申请日：2017-03-20

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 毕慧 , 付戈 , 李超 , 王振宇 , 李斌斌 , 王树鹏

IPC: G06F17/30

Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统，属于大数据检索分析领域，可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中；全局中心节点接收查询请求并对其进行语法解析，然后分发送到对应的数据分中心节点；各数据分中心节点通过元数据的相应MPP引擎进行查询，并将数据传输给全局中心节点；全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询，并输出查询结果。本发明能够实现不同数据中心数据的联合查询，兼容多种MPP引擎，充分利用不同存储模式的特点优化查询，支持多种方式导出查询结果，便于实现上层不同应用对结果数据再分析的不同要求。

15.

发明公开
一种可保持titan实时数据一致性的高效并行加载方法有权

公开(公告)号：CN107038260A

公开(公告)日：2017-08-11

申请号：CN201710390469.4

申请日：2017-05-27

Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司

Inventor： 毛洪亮 , 唐积强 , 王秀文 , 李焱余 , 苏沐冉 , 马秀娟 , 吴震 , 徐小磊 , 张露晨 , 李传海 , 李斌斌 , 蒲路 , 谢铭

IPC: G06F17/30

Abstract: 本发明公开了一种可保持titan实时数据一致性的高效并行加载方法，属于大数据处理领域；首先，将titan划分为7个并行工作的模块，清洗规则管理模块实时更新过滤规则；数据接收模块接收pieceOfData放入queue1中；数据清洗模块过滤合格数据放入queue2中；ID转换模块与高速索引模块交互，判断当前pieceOfData中的两个点与titan ID的对应关系是否存在与图数据库中；如果是，将titan内部ID属性与ID值替换点保存到pieceOfDataT中，放入到queue4中；否则，将未加载的点放入HashSet中，并将对应的pieceOfData放入queue3中；剩余数据加载模块多线程并行将pieceOfDataT加载到titan中；点加载模块负责将HashSet中点加入titan，将点与titan ID的对应关系加入高速索引模块。本发明每个模块独自或交互完成部分功能，从而实现整体上加载效率的提升。

16.

发明授权
一种面向分布式数据仓库的加载客户端实现方法有权

公开(公告)号：CN106446168B

公开(公告)日：2019-11-01

申请号：CN201610849787.8

申请日：2016-09-26

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 刘利宏 , 刘庆良 , 郑彩娟 , 黄成 , 王振宇 , 李斌斌 , 周游

IPC: G06F16/25

Abstract: 本发明公开了一种面向分布式数据仓库的高效加载客户端实现方法，属于信息处理领域；具体为：首先，初始化系统启动参数；加载器管理模块为每个线程各申请一个加载器；每个线程各创建一个数据解析模块，对客户端数据进行解析并传输给加载器；每个加载器分别调用数据校验模块进行检验；然后，将检验后的字段数据缓存到数据缓存模块，进行管理并传输给数据传输模块；通过分布式节点监听模块获取每个分布式数据仓库的监听状态，并发送给数据传输模块；最后，数据传输模块将收到的缓存数据发送给健康的分布式数据仓库。本发明提升了整个分布式数据仓库的使用效率和数据加载效率，符合目前的应用需求，具有广阔的应用前景。

17.

发明公开
一种基于Lucene的支持表达式的自定义相关度排序算法有权

公开(公告)号：CN107220347A

公开(公告)日：2017-09-29

申请号：CN201710390490.4

申请日：2017-05-27

Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司

Inventor： 苏沐冉 , 吴震 , 毛洪亮 , 唐积强 , 王秀文 , 马秀娟 , 徐小磊 , 张露晨 , 李焱余 , 李传海 , 李斌斌 , 孟宪文 , 谢铭

IPC: G06F17/30

Abstract: 本发明公开了一种基于Lucene的支持表达式的自定义相关度排序算法，属于计算机技术领域。所述算法包括：用表达式解析模块对用户输入的表达式进行合法性检查，并转化为系统可以计算的形式；表达式计算模块根据表达式中的参数，在Lucene索引中提取出相应字段进行计算；相关度排序模块对表达式的计算结果进行排序；最后用结果整合模块对各数据节点返回的计算结果进行整合，将最终自定义表达式的排序结果返回给用户。本发明支持多字段间进行表达式计算，并按照其进行排序，优于单纯的文档打分排序机制，而且该发明支持更多的函数计算，且该算法适用于分布式的大数据平台上。

18.

发明公开
一种基于海量数据类SQL检索场景的自动识别优化方法有权

公开(公告)号：CN106484815A

公开(公告)日：2017-03-08

申请号：CN201610849786.3

申请日：2016-09-26

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 刘庆良 , 郑彩娟 , 王振宇 , 黄成 , 李斌斌 , 周游 , 刘斌斌

IPC: G06F17/30

CPC classification number: G06F17/30442 , G06F17/30321 , G06F17/30427

Abstract: 本发明提供了一种基于海量数据类SQL检索场景的自动识别优化方法，属于海量数据统计分析领域。本发明通过五方面来进行优化：引入lucene作为可选存储介质；对每个数据文件的检索字段增加bloomfilter索引(bf索引)；对不同检索场景的划分及最优存储介质的选择；在进行lucene检索场景时，将类SQL语句转换为lucene语句；对lucene存储介质和bf索引添加有效性的会话级设置。在检索时，首先判定bf索引会话级的有效性，通过bf索引缩小待检索数据文件列表，再判定lucene存储介质的会话级有效性。本发明有效降低了海量数据检索时集群的资源消耗，大幅度提升了海量数据的检索性能。

19.

发明公开
一种基于Spark框架进行全文检索的实现方法有权

公开(公告)号：CN107943952A

公开(公告)日：2018-04-20

申请号：CN201711194929.2

申请日：2017-11-24

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 强倩 , 孙昊良 , 张慧琳 , 周渊 , 张晨 , 李斌斌 , 刘庆良

IPC: G06F17/30

Abstract: 本发明公开了一种基于Spark框架进行全文检索的实现方法，属于大数据处理领域。该方法首先接收待执行SQL语句，生成语法树并转换成相应的逻辑计划；然后，从Hive中获取检索所有表的元数据，寻找支持全文检索的字段，并通过字段哈希索引对数据块进行初步裁剪；继而，根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置；最后，将逻辑执行计划转换为可分布式执行的任务集合，通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程；对任务进行分发执行，并汇总执行结果，迭代获取最终结果。该方法具有较高的效率，可以快速的完成海量数据的全文检索，在大数据处理领域具有很强的实用性和应用范围，具有很广泛的应用前景。

20.

发明公开
一种针对海量数据全文检索场景的实现方法有权

公开(公告)号：CN106649462A

公开(公告)日：2017-05-10

申请号：CN201610849788.2

申请日：2016-09-26

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 吴小伟 , 刘庆良 , 王振宇 , 郑彩娟 , 李斌斌 , 黄成 , 周游

IPC: G06F17/30

Abstract: 本发明提供了一种针对海量数据全文检索场景的实现方法，属于海量数据全文检索领域。本发明将Lucene引入检索引擎，对集群中已经存在的数据文件建立Lucene索引文件。在每个存储Lucene索引文件的节点上，设置有一个守护进程对该节点的Lucene索引文件进行维护。本发明优化协调器对fragment的调度机制，对每个执行节点进行计数判断，调整每个fragment的执行位置，以均衡节点资源。本发明还优化全文读取引擎机制，优先采用Lucene进行检索，当出现问题时调用RCFile检索，以保证检索的持续性和正确性。本发明提高了检索性能，可更加合理地利用集群的资源。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification