一种基于实时查询的数据交互方法及装置

    公开(公告)号:CN112650915B

    公开(公告)日:2023-03-10

    申请号:CN202011375913.3

    申请日:2020-11-30

    Abstract: 本发明提供一种基于实时查询的数据交互方法及装置,包括:解析接收的客户端数据查询请求,判断所述客户端数据查询请求为长查询或短查询;若为长查询,则依据生成的查询记录对数据库进行查询,并将长查询结果存储至分布式文件系统中;若为短查询,则通过转换得到的系统sql语句对数据库进行查询,得到短查询结果;将获取的长查询结果或短查询结果返回至客户端。本发明支持短查询和长查询两种不同的请求方式,可以根据业务的紧急程度做不同速度的处理;短查询可以跳过中间系统直接访问数据源并返回结果数据,以达到更快的速度;长查询的结果以较小单位依次返回给请求方达到更高的时效性。

    一种基于Spark平台的微博数据预处理方法

    公开(公告)号:CN106372105A

    公开(公告)日:2017-02-01

    申请号:CN201610694772.9

    申请日:2016-08-19

    CPC classification number: G06F16/334 G06F16/313

    Abstract: 本发明涉及一种基于Spark平台的微博数据预处理方法。该方法包括:1)采集微博数据;2)基于Spark平台对采集的微博数据进行去噪处理,并将去噪处理后的微博数据缓存在分布式内存中;3)基于Spark平台对去噪处理后的微博数据进行去重处理,在去重处理中将海明距离小于设定的阈值的文本判定为近似文本。本发明采用Spark平台做为存储及运算的基础,采用内存缓存来提高读写速度,计算节点由Spark平台调度,完成分布式计算,能够实现更准确、高效的去噪、去重功能。

    基于关键词匹配进行中文网页预分类的方法

    公开(公告)号:CN106339459A

    公开(公告)日:2017-01-18

    申请号:CN201610741134.8

    申请日:2016-08-26

    Abstract: 本发明涉及基于关键词匹配进行中文网页预分类的方法,该方法在制作分类算法所需要的训练集的过程中,给每条训练网页进行人工标注的同时,将网页中表征该网页的关键词也标注出来,生成关键词表;对每一条测试网页,首先根据关键词表提取出该网页中出现的关键词,然后通过与训练集进行关键词匹配计算,将训练集的标签转移给该测试网页;如果该预分类方法未能给出训练网页的分类结果,该测试网页需要进行进一步的分类计算。该方法降低了如SVM、KNN、朴素贝叶斯等计算复杂的分类技术的运行时间,同时也使分类结果的准确率和召回率都得到了提高。

    一种用于大数据处理的计算系统及计算方法

    公开(公告)号:CN103488775A

    公开(公告)日:2014-01-01

    申请号:CN201310455174.2

    申请日:2013-09-29

    CPC classification number: G06F17/30194

    Abstract: 本发明涉及一种用于大数据处理的计算系统及方法,所述系统从下至上依次包括最底层模块、中间层模块和最高层模块,且中间层模块又包括消息传输模块和计算模型模块;最底层模块采用Hadoop分布式文件系统,用于存储数据;消息传输模块用于实现在不同计算节点运行的计算模型模块之间传递消息;在不同计算节点运行的计算模型模块根据所述消息传输模块传递的消息实现协同工作,并各自构建特定类型的计算模型来处理数据;最高层模块用于为计算模型提供编程接口,并以串行的方式组合不同计算模型表达的计算,同时设置不同计算模型之间基于内存流水线方式共享数据。本发明允许在一个系统内采用多种计算模型编写应用程序,能解决更复杂的问题。

    一种通用的离线数据接入方法及系统

    公开(公告)号:CN107317865B

    公开(公告)日:2019-11-05

    申请号:CN201710521896.1

    申请日:2017-06-30

    Abstract: 本发明公开了一种通用的离线数据接入方法及系统,基于离线数据接入通用处理模板,来适配多种业务数据接入。具有如下优点:1)数据接入与业务耦合度低,数据接入系统更为通用,音视频数据、图片数据、博客数据、即时通信数据等数据源,都可以采用该方法及系统;2)多节点分布式采集数据,在保证数据正确传输的前提下,提供传输的并行度和传输效率,并实现了负载均衡;3)提供完善的异常处理和报错机制;4)实时监控系统运行状态,系统更为稳定。

    一种基于Spark的数据处理方法及系统

    公开(公告)号:CN107463595A

    公开(公告)日:2017-12-12

    申请号:CN201710335307.0

    申请日:2017-05-12

    CPC classification number: G06F16/27 G06F16/21 G06F16/25

    Abstract: 本发明公开了一种基于Spark的数据处理方法及系统。本方法为:1)用户根据待处理文档的需求选取算子并配置所选取的算子参数,然后建立所选算子的连接关系,生成场景的XML文件;该场景的XML文件中包括每一所选算子的XML内容以及各算子的连接关系;2)根据场景的XML文件生成相应的有向无环图DAG;3)将该有向无环图DAG切分成若干能够在分布式计算环境下执行的子任务subJob,在Spark计算框架下执行切分后得到的子任务subJob,实现对该待处理文档的处理。本发明能够实现对接各种异构数据,提高了数据处理灵活性。

    一种基于实时查询的数据交互方法及装置

    公开(公告)号:CN112650915A

    公开(公告)日:2021-04-13

    申请号:CN202011375913.3

    申请日:2020-11-30

    Abstract: 本发明提供一种基于实时查询的数据交互方法及装置,包括:解析接收的客户端数据查询请求,判断所述客户端数据查询请求为长查询或短查询;若为长查询,则依据生成的查询记录对数据库进行查询,并将长查询结果存储至分布式文件系统中;若为短查询,则通过转换得到的系统sql语句对数据库进行查询,得到短查询结果;将获取的长查询结果或短查询结果返回至客户端。本发明支持短查询和长查询两种不同的请求方式,可以根据业务的紧急程度做不同速度的处理;短查询可以跳过中间系统直接访问数据源并返回结果数据,以达到更快的速度;长查询的结果以较小单位依次返回给请求方达到更高的时效性。

    基于关键词匹配进行中文网页预分类的方法

    公开(公告)号:CN106339459B

    公开(公告)日:2019-11-26

    申请号:CN201610741134.8

    申请日:2016-08-26

    Abstract: 本发明涉及基于关键词匹配进行中文网页预分类的方法,该方法在制作分类算法所需要的训练集的过程中,给每条训练网页进行人工标注的同时,将网页中表征该网页的关键词也标注出来,生成关键词表;对每一条测试网页,首先根据关键词表提取出该网页中出现的关键词,然后通过与训练集进行关键词匹配计算,将训练集的标签转移给该测试网页;如果该预分类方法未能给出训练网页的分类结果,该测试网页需要进行进一步的分类计算。该方法降低了如SVM、KNN、朴素贝叶斯等计算复杂的分类技术的运行时间,同时也使分类结果的准确率和召回率都得到了提高。

    一种面向通用文本格式的解析方法及工具

    公开(公告)号:CN107341135A

    公开(公告)日:2017-11-10

    申请号:CN201710372929.0

    申请日:2017-05-24

    Abstract: 本发明公开了一种面向通用文本格式的解析方法及工具。本方法为:1)对于一待解析数据a,首先将其对应的各种自定义符号导入解析工具中,然后采用指定的文件编码格式读取该待解析数据a;自定义符号包括行分隔符、字段包围符和字段间分隔符;2)解析工具将解析数据a中的自定义符号统一转换文字符串类型;3)解析工具逐个分析所读取的字符,如果该字符及其后面n个字符组成的字符串与行分隔符一致,则根据行分隔符将待解析数据a分割成行数据;4)解析工具分析得到的行数据,根据字段包围符解析出行数据中所有的记录;5)解析工具逐个分析得到的每个记录,根据字段间分隔符解析出每条记录中所有的字段。本发明大大提高了解析效率。

    一种数据过滤前置的数据交换方法及系统

    公开(公告)号:CN112650767B

    公开(公告)日:2023-03-10

    申请号:CN202011378190.2

    申请日:2020-11-30

    Abstract: 本发明提供一种数据过滤前置的数据交换方法及系统,包括:接收外网服务器发送的客户端数据查询请求,其中所述客户端数据查询请求根据设定过滤规则生成;解析客户端数据查询请求,将得到的任务发送至元数据库,以得到内部数据;转换接收的内部数据,将得到的外部数据经外网服务器返回至相应客户端。本发明因为数据过滤由数据交换系统内部进行,所以客户端只能接到符合过滤规则的数据,从而保障数据安全,降低了客户端的资源消耗。

Patent Agency Ranking