一种文档分类方法和系统
    61.
    发明公开

    公开(公告)号:CN104239479A

    公开(公告)日:2014-12-24

    申请号:CN201410449140.7

    申请日:2014-09-04

    CPC classification number: G06F17/30705

    Abstract: 本发明公开了一种文档分类方法和系统,应用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步骤:所述Map程序对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分;所述Map程序根据所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器;所述Reduce程序使用所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果。本发明充分利用了Hadoop集群的分布式特点,避免了传统系统框架的局限性,具有并行快速的特点,能够快速实现对海量文档的分类,节省了分类时间,提高了文档分类的效率,提高了系统性能。

    HBase二级索引表的查询方法和装置

    公开(公告)号:CN104217011A

    公开(公告)日:2014-12-17

    申请号:CN201410483879.X

    申请日:2014-09-19

    CPC classification number: G06F17/30619 G06F17/30675

    Abstract: 本发明提供了一种HBase二级索引表的查询方法和装置,包括:判断HBase源表是否有对应的二级索引表,通过二级索引表查询HBase表的列中属性值;如果没有,根据HBase源表中的列族信息、列信息、列属性值及HBase源表中对应的Rowkey,创建与HBase源表对应的二级索引表,并同步HBase源表的数据到对应的二级索引表中;如果有,同步HBase源表的插入数据操作或删除数据操作到对应的二级索引表中。本发明通过二级索引表能够实现快速查询某列属性值中的所有记录信息,达到高效率查询的目的。

    一种基于MapReduce框架的网页排序方法和系统

    公开(公告)号:CN104156457A

    公开(公告)日:2014-11-19

    申请号:CN201410409929.X

    申请日:2014-08-19

    CPC classification number: G06F17/30864

    Abstract: 本发明公开了一种基于MapReduce框架的网页排序方法和系统,应用于Hadoop集群中的MapReduce框架,MapReduce框架包括Map模块和Reduce模块,Map模块从文本文件中读取与各个网页对应的数据记录,根据读取到的数据记录,生成并保存与各个网页对应的链接信息、积分信息和出度信息;Reduce模块根据与各个网页对应的链接信息和出度信息,更新各个网页的贡献积分,并在满足预设的收敛条件时,将网页排序结果输出,提升了网页排序的效率,且保证网页排序的准确性。

    一种维护数据一致性的方法及装置

    公开(公告)号:CN104104731A

    公开(公告)日:2014-10-15

    申请号:CN201410363170.6

    申请日:2014-07-28

    Inventor: 王欢 吴楠

    Abstract: 本申请公开了一种维护数据一致性的方法及系统,包括:在客户端出现宕机或网络异常时,元数据服务器获取客户端发送的对文件进行处理的处理请求;元数据服务器根据处理请求查看处理请求的文件的存在情况,若处理请求的文件不符合处理的状态,根据文件的处理请求执行文件的处理;并在完成处理请求后,删除元数据服务器获取的处理请求,同时更新元数据服务器和将完成处理请求的内容反馈给客户端;若处理请求的文件符合处理的状态,直接删除获得的处理请求并反馈给客户端。本发明通过元数据服务器获取处理请求,对处理请求的完成状态进行维护,使数据服务器和元数据服务器对客户端发出的文件的处理请求,保持一致性,实现过程简单。

    一种源分布式数据库捕获数据的系统及方法

    公开(公告)号:CN104239542B

    公开(公告)日:2017-11-17

    申请号:CN201410488046.2

    申请日:2014-09-22

    Abstract: 本发明披露了源分布式数据库捕获数据的系统及方法,其中方法包括:当区域服务器开始保存记录时,将内存缓存中的数据刷新到分布式文件系统的文件里,然后针对所有要保存记录的分布式文件系统的文件创建相应链接的引用文件,并将引用文件存储到标记为本服务器的文件集合中。本发明用这样的保存记录方式,能够让用户在不同阶段均能对源分布式数据库进行捕获数据的操作,从而放心使用源分布式数据库信息记录的数据。

    一种Linux操作系统的性能优化方法及框架

    公开(公告)号:CN106250181A

    公开(公告)日:2016-12-21

    申请号:CN201610601646.4

    申请日:2016-07-27

    Inventor: 刘长生 吴楠

    CPC classification number: G06F9/4451 G06F11/3438

    Abstract: 本申请公开了一种Linux操作系统的性能优化方法,包括:获取当前Linux操作系统的系统运行信息;利用系统运行信息,判断Linux操作系统是否需要进行性能优化;若判定Linux操作系统需要进行性能优化,则根据预设的系统优化策略对Linux操作系统进行相应的优化。本申请首先获取Linux操作系统的系统运行信息,然后利用该系统运行信息判断是否需要对Linux操作系统进行优化,在确定需要对Linux操作系统进行性能优化后,则会利用预设的系统优化策略对Linux操作系统进行相应的优化,在这个过程中无需人工进行操作,由此减少了性能优化过程中所需的人力成本。另外,本申请还相应地公开了一种性能优化框架。

    一种系统休眠的方法及装置

    公开(公告)号:CN105739982A

    公开(公告)日:2016-07-06

    申请号:CN201610066191.0

    申请日:2016-01-29

    Inventor: 刘长生 吴楠

    CPC classification number: G06F9/4418 G06F11/1448

    Abstract: 本发明公开了一种系统休眠的方法及装置,该方法包括:计算所需申请的内存数;根据计算得到的所述内存数,从非易失性内存中划分出对应的预设数量的物理内存;将所述非易失性内存中划分出的物理内存转换为块设备;使用新生成的所述块设备代替磁盘进行存储内部镜像,用于非易失性内存的系统休眠。本发明所提供的系统休眠的方法及装置在系统休眠时,系统会将需要保存的数据按照原有的流程保存到由内存转换成的块设备中,取代了原先的磁盘,由于从内存中读取数据要远比从磁盘中读取数据快,从而缩短了系统唤醒的时间,提高了用户体验以及工作效率。

    一种文档分类管理方法及装置

    公开(公告)号:CN105045845A

    公开(公告)日:2015-11-11

    申请号:CN201510382990.4

    申请日:2015-07-02

    Inventor: 郭美思 吴楠

    CPC classification number: G06F17/30011

    Abstract: 本发明提供一种文档分类管理方法及装置,上述方法包括以下步骤:日志收集终端获取与业务类型对应业务行为的日志记录文件;所述日志收集终端确定与所述日志记录文件对应的分布式存储区域并将所述日志记录文件发送至与所述分布式存储区域位于的日志存储终端并由所述日志存储终端进行存储;实现了有效的获取不同机器上相关联的日志信息,方便用户及管理员对日志进行整体的查询或分析,大大提升了用户体验。

    基于HBase表实现聚合计算的方法和装置

    公开(公告)号:CN104268257A

    公开(公告)日:2015-01-07

    申请号:CN201410527986.8

    申请日:2014-10-09

    CPC classification number: G06F17/30545

    Abstract: 本发明提供了一种基于HBase表实现聚合计算的方法和装置,包括:使用HBase协处理器的终端编写聚合计算;对HBase中的配置文件进行协处理器的聚合类配置,或者,对HBase中特定表的参数进行协处理器的聚合类配置;HBase协处理器加载客户端实现聚合计算。本发明通过HBase中协处理器的终端类型接口来实现聚合计算,通过简单的聚合计算得出最终的计算结果,从而减少了网络开销,提高了性能。

Patent Agency Ranking