Patent search ap:("国家计算机网络与信息安全管理中心") AND inv:"郑彩娟" Page 1

1.

发明授权
一种基于海量数据类SQL检索场景的自动识别优化方法有权

公开(公告)号：CN106484815B

公开(公告)日：2019-04-12

申请号：CN201610849786.3

申请日：2016-09-26

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 刘庆良 , 郑彩娟 , 王振宇 , 黄成 , 李斌斌 , 周游 , 刘斌斌

IPC: G06F16/2453 , G06F16/22 , G06F16/2452

Abstract: 本发明提供了一种基于海量数据类SQL检索场景的自动识别优化方法，属于海量数据统计分析领域。本发明通过五方面来进行优化：引入lucene作为可选存储介质；对每个数据文件的检索字段增加bloomfilter索引(bf索引)；对不同检索场景的划分及最优存储介质的选择；在进行lucene检索场景时，将类SQL语句转换为lucene语句；对lucene存储介质和bf索引添加有效性的会话级设置。在检索时，首先判定bf索引会话级的有效性，通过bf索引缩小待检索数据文件列表，再判定lucene存储介质的会话级有效性。本发明有效降低了海量数据检索时集群的资源消耗，大幅度提升了海量数据的检索性能。

2.

发明公开
一种支持海量长文本数据分类的分析模型的实现方法有权

公开(公告)号：CN106708926A

公开(公告)日：2017-05-24

申请号：CN201611001399.0

申请日：2016-11-14

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 刘庆良 , 郑彩娟 , 黄成 , 周游 , 王海平 , 马雪

IPC: G06F17/30 , G06F17/27

Abstract: 本发明提出一种支持海量长文本数据分类的分析模型的实现方法，属于大数据文本分析技术领域。本发明采用HanLP分词工具中的标准分词并采用改进的CHI算法，一方面有效降低文本分类时每篇文章的词向量空间的维度，降低文本分类计算的时间复杂度，提升算法效率，满足大数据背景下海量长文本分类时的性能需求；同时最大程度低减少由于降低向量空间维度数而造成分类准确性降低。采用TFIDF算法能够有效消除了文本与向量之间的屏障，最后采用朴素贝叶斯分类算法，能够准确的将文本进行较好的训练，实现长文本的准确的分类。本发明能有效地解决在大数据环境下长文本分类的性能指标和准确性指标的矛盾性问题，具有广泛的应用前景。

3.

发明授权
基于海量数据分析挖掘CDN域名的方法失效

公开(公告)号：CN108090188B

公开(公告)日：2021-05-07

申请号：CN201711367377.0

申请日：2017-12-18

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 丁煜 , 李超 , 罗龙楷 , 马雪 , 陈思 , 毕慧 , 郭承青 , 郑彩娟 , 于淼 , 王中华

IPC: G06F16/2458

Abstract: 本发明公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法，属于网络信技术领域。该方法首先对初始的URL信息进行URL解码，然后对解码后的URL进行HOST域名提取和正确性验证；对获取的数据进行HOST域名提取，过滤掉脏数据和数值型HOST域名；设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N；对成功提取HOST域名的数据，基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明方法紧密结合了使用CDN服务域名的特性，在分析中利用了多种精准的、有依据的分析方法，保证了分析的可靠性和准确度，为后续的网络安全应用和分析提供坚实的基础数据支持，使得相关领域有更加广泛的应用前景。

4.

发明公开
基于海量数据分析挖掘CDN域名的方法失效

公开(公告)号：CN108090188A

公开(公告)日：2018-05-29

申请号：CN201711367377.0

申请日：2017-12-18

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 丁煜 , 李超 , 罗龙楷 , 马雪 , 陈思 , 毕慧 , 郭承青 , 郑彩娟 , 于淼 , 王中华

IPC: G06F17/30

Abstract: 本发明公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法，属于网络信技术领域。该方法首先对初始的URL信息进行URL解码，然后对解码后的URL进行HOST域名提取和正确性验证；对获取的数据进行HOST域名提取，过滤掉脏数据和数值型HOST域名；设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N；对成功提取HOST域名的数据，基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明方法紧密结合了使用CDN服务域名的特性，在分析中利用了多种精准的、有依据的分析方法，保证了分析的可靠性和准确度，为后续的网络安全应用和分析提供坚实的基础数据支持，使得相关领域有更加广泛的应用前景。

5.

发明公开
一种针对海量数据全文检索场景的实现方法有权

公开(公告)号：CN106649462A

公开(公告)日：2017-05-10

申请号：CN201610849788.2

申请日：2016-09-26

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 吴小伟 , 刘庆良 , 王振宇 , 郑彩娟 , 李斌斌 , 黄成 , 周游

IPC: G06F17/30

Abstract: 本发明提供了一种针对海量数据全文检索场景的实现方法，属于海量数据全文检索领域。本发明将Lucene引入检索引擎，对集群中已经存在的数据文件建立Lucene索引文件。在每个存储Lucene索引文件的节点上，设置有一个守护进程对该节点的Lucene索引文件进行维护。本发明优化协调器对fragment的调度机制，对每个执行节点进行计数判断，调整每个fragment的执行位置，以均衡节点资源。本发明还优化全文读取引擎机制，优先采用Lucene进行检索，当出现问题时调用RCFile检索，以保证检索的持续性和正确性。本发明提高了检索性能，可更加合理地利用集群的资源。

6.

发明公开
一种面向分布式数据仓库的高效加载客户端实现方法有权

公开(公告)号：CN106446168A

公开(公告)日：2017-02-22

申请号：CN201610849787.8

申请日：2016-09-26

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 刘利宏 , 刘庆良 , 郑彩娟 , 黄成 , 王振宇 , 李斌斌 , 周游

IPC: G06F17/30

Abstract: 本发明公开了一种面向分布式数据仓库的高效加载客户端实现方法，属于信息处理领域；具体为：首先，初始化系统启动参数；加载器管理模块为每个线程各申请一个加载器；每个线程各创建一个数据解析模块，对客户端数据进行解析并传输给加载器；每个加载器分别调用数据校验模块进行检验；然后，将检验后的字段数据缓存到数据缓存模块，进行管理并传输给数据传输模块；通过分布式节点监听模块获取每个分布式数据仓库的监听状态，并发送给数据传输模块；最后，数据传输模块将收到的缓存数据发送给健康的分布式数据仓库。本发明提升了整个分布式数据仓库的使用效率和数据加载效率，符合目前的应用需求，具有广阔的应用前景。

7.

发明授权
一种支持海量长文本数据分类的分析模型的实现方法有权

公开(公告)号：CN106708926B

公开(公告)日：2020-10-30

申请号：CN201611001399.0

申请日：2016-11-14

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 刘庆良 , 郑彩娟 , 黄成 , 周游 , 王海平 , 马雪

IPC: G06F40/216 , G06F40/289 , G06F16/35

Abstract: 本发明提出一种支持海量长文本数据分类的分析模型的实现方法，属于大数据文本分析技术领域。本发明采用HanLP分词工具中的标准分词并采用改进的CHI算法，一方面有效降低文本分类时每篇文章的词向量空间的维度，降低文本分类计算的时间复杂度，提升算法效率，满足大数据背景下海量长文本分类时的性能需求；同时最大程度低减少由于降低向量空间维度数而造成分类准确性降低。采用TFIDF算法能够有效消除了文本与向量之间的屏障，最后采用朴素贝叶斯分类算法，能够准确的将文本进行较好的训练，实现长文本的准确的分类。本发明能有效地解决在大数据环境下长文本分类的性能指标和准确性指标的矛盾性问题，具有广泛的应用前景。

8.

发明授权
一种面向分布式数据仓库的加载客户端实现方法有权

公开(公告)号：CN106446168B

公开(公告)日：2019-11-01

申请号：CN201610849787.8

申请日：2016-09-26

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 刘利宏 , 刘庆良 , 郑彩娟 , 黄成 , 王振宇 , 李斌斌 , 周游

IPC: G06F16/25

Abstract: 本发明公开了一种面向分布式数据仓库的高效加载客户端实现方法，属于信息处理领域；具体为：首先，初始化系统启动参数；加载器管理模块为每个线程各申请一个加载器；每个线程各创建一个数据解析模块，对客户端数据进行解析并传输给加载器；每个加载器分别调用数据校验模块进行检验；然后，将检验后的字段数据缓存到数据缓存模块，进行管理并传输给数据传输模块；通过分布式节点监听模块获取每个分布式数据仓库的监听状态，并发送给数据传输模块；最后，数据传输模块将收到的缓存数据发送给健康的分布式数据仓库。本发明提升了整个分布式数据仓库的使用效率和数据加载效率，符合目前的应用需求，具有广阔的应用前景。

9.

发明授权
一种基于编码和机器学习的多语种识别方法有权

公开(公告)号：CN106528535B

公开(公告)日：2019-04-26

申请号：CN201611001398.6

申请日：2016-11-14

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 刘庆良 , 郑彩娟 , 王海平 , 黄成 , 周游 , 陈婷婷

IPC: G06F17/27

Abstract: 本发明提供了一种基于编码和机器学习的多语种识别方法，是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别，编码识别时还统计各语种的单词量，当机器学习单元的识别结果在编码识别单元的判定区间内，且二者识别的语言一致时，输出单一识别语言，当编码识别单元识别到多种语言时，进行混合语言规则判断，若第二语言在文本中的单词量比例达到设定比例，则判定文本为混合语言。本发明对长文本可先作随机采样再判定，以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别，同时支持混合语种文本识别，在海量数据分析以及舆情监控中具有广泛的应用前景。

10.

发明公开
一种基于海量数据类SQL检索场景的自动识别优化方法有权

公开(公告)号：CN106484815A

公开(公告)日：2017-03-08

申请号：CN201610849786.3

申请日：2016-09-26

Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王宇 , 徐晓燕 , 周渊 , 刘庆良 , 郑彩娟 , 王振宇 , 黄成 , 李斌斌 , 周游 , 刘斌斌

IPC: G06F17/30

CPC classification number: G06F17/30442 , G06F17/30321 , G06F17/30427

Abstract: 本发明提供了一种基于海量数据类SQL检索场景的自动识别优化方法，属于海量数据统计分析领域。本发明通过五方面来进行优化：引入lucene作为可选存储介质；对每个数据文件的检索字段增加bloomfilter索引(bf索引)；对不同检索场景的划分及最优存储介质的选择；在进行lucene检索场景时，将类SQL语句转换为lucene语句；对lucene存储介质和bf索引添加有效性的会话级设置。在检索时，首先判定bf索引会话级的有效性，通过bf索引缩小待检索数据文件列表，再判定lucene存储介质的会话级有效性。本发明有效降低了海量数据检索时集群的资源消耗，大幅度提升了海量数据的检索性能。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification