一种基于频繁交易模式的异常账户检测方法及系统

    公开(公告)号:CN110717828A

    公开(公告)日:2020-01-21

    申请号:CN201910846523.0

    申请日:2019-09-09

    Abstract: 本发明提出一种基于频繁交易模式的异常账户检测方法及系统,包括:获取区块链中数字代币交易的时间图,其中时间图中节点为交易账户,时间图中节点间的边代表交易账户间的代币交易方向和交易时间,剔除时间图中每条边的交易时间,得到交易图;挖掘时间图中各交易模式出现的次数,确定时间图的频繁模式,统计节点对在频繁模式中出现的次数作为两个账户之间的高阶相似度,集合所有高阶相似度得到高阶相似度矩阵;基于高阶相似度矩阵对交易图中的节点进行聚类处理,得到由属于同一簇的节点构成的交易子图,并通过分类网络对交易子图进行分类,输出分类结果。以实现给定一段时间的交易记录和感兴趣的交易模式,给出与给定交易模式相关的账户簇。

    一种面向大数据的分布式主题发现方法及系统

    公开(公告)号:CN103593418B

    公开(公告)日:2017-03-29

    申请号:CN201310526790.2

    申请日:2013-10-30

    Abstract: 本发明涉及一种面向大数据的分布式主题发现系统及方法,包含三个并行处理过程,每个过程均由映射、组合、化简三个功能模块中的一个或多个组合而成,对每个输入文档的特征向量进行正规化,并且对构成该文档的每个词在本文档中出现次数进行计数;在映射功能模块端将每个文档作为一个原始类并对文档频率计数,在组合模块端对映射模块端产生的原始类进行本地聚类,生成局部类,在化简模块端对来自多个远端物理节点组合产生的局部类进行聚类,生成全局类;对第二个映射/化简过程产生全局类的内部关键词进行打分和排序,输出用户所需的K个高分关键词表达主题。从而处理TB级数据,并且计算能力线性上升,真正实现分布式计算,提高性能和效率。

    一种用于大数据的并行半定义分类方法与系统

    公开(公告)号:CN106096063A

    公开(公告)日:2016-11-09

    申请号:CN201610570978.0

    申请日:2016-07-19

    CPC classification number: G06F17/30011 G06F17/30861

    Abstract: 本发明提出一种用于大数据的并行半定义分类方法与系统,涉及互联网行业技术领域,该方法包括串行步骤,获取文档的类别变量z、主题变量y、文档上类别的分布θ、类别上主题的分布π、主题上词的分布φ,结合先验参数α、β、δ,对类别变量z与主题变量y进行迭代采样,直到类别变量z与主题变量y收敛到平稳分布,对主题上词的分布φ、类别上主题的分布π、主题上词的分布φ进行估计,选择主题上词的分布φ中概率最高的一个类别作为文档的类标,并根据类标进行文档分类。本发明解决了海量数据下,传统分类或者半监督聚类难以解决的半定义分类问题。

    一种基于并行自动编码机的特征学习方法及系统

    公开(公告)号:CN105825269A

    公开(公告)日:2016-08-03

    申请号:CN201610147007.5

    申请日:2016-03-15

    CPC classification number: G06N3/0454 G06F17/30545 G06N3/08

    Abstract: 本发明提供一种基于并行自动编码机的特征学习方法,包括:1)管理机执行Map操作,为各个工作机规划任务并将任务分发给每个工作机;其中,各个工作机的任务一致,均是基于所输入的数据对自动编码机的权值矩阵进行训练;所述权值矩阵包含了所述自动编码机的所有权值;2)每个工作机分别读取该工作机对应的部分数据集;3)各个工作机并行地执行管理机所分发的任务,对自动编码机的权值矩阵进行训练,然后每个工作机将它所训练的权值矩阵反馈给管理机;4)管理机执行Reduce操作,对各个工作机反馈的权值矩阵进行算数平均。本发明能够更加高效地实现特征学习;能够将并行自动编码机的数据处理的时间复杂度由二次复杂度降为线性复杂度。

    一种并行的垂直交叉网络数据采集方法及系统

    公开(公告)号:CN103258017B

    公开(公告)日:2016-04-13

    申请号:CN201310146080.7

    申请日:2013-04-24

    Inventor: 敖翔 何清 庄福振

    Abstract: 本发明提供一种并行的垂直交叉网络数据采集方法及系统,方法包括:S1确定采集方式,若是普通URL列表采集方式根据URL列表直接下载待下载网页数据及其元数据,若是垂直交叉采集方式利用交叉关键字列表检索待下载页,并下载该网页数据及其元数据;S2定时更新任务,对已下载的网页中第一层到当前层的所有网页进行扫描检查,当新下载的页面最后修改时间大于已下载的页面最后修改时间时,对该新下载的页面重新进行数据采集,更新网页数据记录。本发明避掉了多线程技术的一些潜在风险和代价,降低了多线程并行采集的潜在风险与代价,可以实现海量数据更稳定、更高效的并行采集,提高了数据读取和查询的效率。

Patent Agency Ranking