PCI-E多缓冲区DMA数据传输方法

    公开(公告)号:CN104239248A

    公开(公告)日:2014-12-24

    申请号:CN201410472222.3

    申请日:2014-09-16

    Abstract: 本发明提供了一种PCI-E多缓冲区DMA数据传输方法,涉及PCI-E数据传输技术领域。本方法在数据源系统和数据目的系统中各自分配N块物理内存,分别对两个系统中的N块物理内存通过双向链表建立空闲内存池及工作内存池;从空闲内存池获取用于写入数据的内存,写入数据的内存加入工作内存池;在环形缓冲区中写入所要操作的内存的物理起始地址和大小。本发明通过空闲内存池及工作内存池的使用减少内存拷贝次数和系统调用次数;通过环形缓冲区增加DMA的数据传输速率。本发明在大数据量的传输下降低了系统的等待开销,提高了传输效率。

    一种自动化异常样本筛选的异常检测方法及装置

    公开(公告)号:CN115438239A

    公开(公告)日:2022-12-06

    申请号:CN202110623899.2

    申请日:2021-06-04

    Abstract: 本发明公开一种自动化异常样本筛选的异常检测方法及装置,包括依据数据集中各数据的特征,进行数据筛选;对筛选得到的数据进行特征降维;针对特征降维后的数据进行异常检测,得到若干候选数据;对所有候选数据作聚类,得到带类别标签的异常数据。本发明利用特征筛选和特征降维方法,解决异常检测算法难以处理高维度特征的问题,并结合对异常检验算法和聚类算法,实现了对异常样本的自动化分析,在整个流程中不需要人工干预,大大减少了异常样本发现与分析过程中的人力投入。

    一种基于GraphX的分布式幂迭代聚类方法和装置

    公开(公告)号:CN107480685B

    公开(公告)日:2021-02-23

    申请号:CN201610402954.4

    申请日:2016-06-08

    Abstract: 本发明公开了一种基于GraphX的分布式幂迭代聚类方法和装置。该方法包括:获取分布式存储的多个数据;对所述多个数据分别进行数据清洗,得到多个清洗数据;基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵;基于GraphX,利用设置的随机初始向量对所述亲和矩阵进行迭代处理;利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果。本发明有效地解决了基于图的聚类算法可扩展性不强、计算复杂度高的问题。

    一种基于Spark框架进行全文检索的实现方法

    公开(公告)号:CN107943952B

    公开(公告)日:2020-10-13

    申请号:CN201711194929.2

    申请日:2017-11-24

    Abstract: 本发明公开了一种基于Spark框架进行全文检索的实现方法,属于大数据处理领域。该方法首先接收待执行SQL语句,生成语法树并转换成相应的逻辑计划;然后,从Hive中获取检索所有表的元数据,寻找支持全文检索的字段,并通过字段哈希索引对数据块进行初步裁剪;继而,根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置;最后,将逻辑执行计划转换为可分布式执行的任务集合,通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程;对任务进行分发执行,并汇总执行结果,迭代获取最终结果。该方法具有较高的效率,可以快速的完成海量数据的全文检索,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。

    一种Hadoop Yarn网络带宽资源调度、隔离方法和装置

    公开(公告)号:CN107483364A

    公开(公告)日:2017-12-15

    申请号:CN201610404404.6

    申请日:2016-06-08

    CPC classification number: H04L47/76

    Abstract: 本发明公开了一种Hadoop Yarn网络带宽资源调度、隔离方法和装置。该调度方法在RM侧执行,包括:接收AM发送的作业资源请求;所述工作资源请求包括:在作业中,每个任务的网络带宽资源需求量;根据每个所述任务的网络带宽需求量,采用预设的公平调度算法,为每个所述任务对应分配容器;其中,在每个所述容器中封装有对应任务的网络带宽资源分配量。该隔离方法在NM侧执行,包括:从AM获取多个容器;其中,每个所述容器中封装有对应的任务的网络带宽资源分配量;根据各个任务的网络带宽资源分配量,隔离各个任务占用的网络带宽资源。本发明在Yarn集群中增加了对网络带宽资源的调度,而且可以避免各个任务之间由于网络带宽资源的竞争而相互干扰。

    一种基于GraphX的分布式幂迭代聚类方法和装置

    公开(公告)号:CN107480685A

    公开(公告)日:2017-12-15

    申请号:CN201610402954.4

    申请日:2016-06-08

    Abstract: 本发明公开了一种基于GraphX的分布式幂迭代聚类方法和装置。该方法包括:获取分布式存储的多个数据;对所述多个数据分别进行数据清洗,得到多个清洗数据;基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵;基于GraphX,利用设置的随机初始向量对所述亲和矩阵进行迭代处理;利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果。本发明有效地解决了基于图的聚类算法可扩展性不强、计算复杂度高的问题。

    PCI‑E零拷贝DMA数据传输方法

    公开(公告)号:CN104239249B

    公开(公告)日:2017-08-04

    申请号:CN201410472223.8

    申请日:2014-09-16

    Abstract: 本发明提供了一种PCI‑E零拷贝DMA数据传输方法,属于PCI‑E数据传输技术领域。本方法首先在数据源和数据目的系统中各自分配适当大小的物理内存,并分别对两个系统中分配的物理内存使用双向链表建立空闲内存池和工作内存池;在数据源系统上,用户应用程序传输数据时,从空闲内存池取得空闲内存后直接进行数据填充,数据填充完后传输给数据目的系统;在数据目的系统,将接收的数据存入工作内存池,用户应用程序使用相应的API接口从工作内存池中取得数据进行使用;使用完毕后将相应的内存归还给空闲内存池。本发明极大地减轻了CPU的压力,减少了系统调用,对于大规模小数据量的传输减轻了用户内核空间的切换,提高了系统效率。

Patent Agency Ranking