基于细粒度领域自适应的跨领域图像分类方法及系统

    公开(公告)号:CN111259941A

    公开(公告)日:2020-06-09

    申请号:CN202010025566.5

    申请日:2020-01-10

    Abstract: 本发明提出一种基于细粒度领域自适应的跨领域图像分类方法及系统,包括:依次输入源领域图片和目标领域图片至卷积神经网络,分别得到源领域图片的源特征向量和目标领域图片的目标特征向量;依次输入源特征向量和目标特征向量至多层全连接层,在每个全连接层使用局部最大均值差异损失衡量源领域和目标领域的特征差异,将源特征向量经过多层全连接层处理后送入分类器获得预测标签,预测标签结合预标记的类别标签得到交叉熵,交叉熵和特征差异作为分类损失函数;最小化分类损失函数,直到分类损失函数收敛,保存当前卷积神经网络作为图像特征提取网络,将目标领域中待分类图片输入至图像特征提取网络,得到待分类图片的图像分类结果。

    一种基于频繁交易模式的异常账户检测方法及系统

    公开(公告)号:CN110717828A

    公开(公告)日:2020-01-21

    申请号:CN201910846523.0

    申请日:2019-09-09

    Abstract: 本发明提出一种基于频繁交易模式的异常账户检测方法及系统,包括:获取区块链中数字代币交易的时间图,其中时间图中节点为交易账户,时间图中节点间的边代表交易账户间的代币交易方向和交易时间,剔除时间图中每条边的交易时间,得到交易图;挖掘时间图中各交易模式出现的次数,确定时间图的频繁模式,统计节点对在频繁模式中出现的次数作为两个账户之间的高阶相似度,集合所有高阶相似度得到高阶相似度矩阵;基于高阶相似度矩阵对交易图中的节点进行聚类处理,得到由属于同一簇的节点构成的交易子图,并通过分类网络对交易子图进行分类,输出分类结果。以实现给定一段时间的交易记录和感兴趣的交易模式,给出与给定交易模式相关的账户簇。

    一种面向大数据的分布式主题发现方法及系统

    公开(公告)号:CN103593418B

    公开(公告)日:2017-03-29

    申请号:CN201310526790.2

    申请日:2013-10-30

    Abstract: 本发明涉及一种面向大数据的分布式主题发现系统及方法,包含三个并行处理过程,每个过程均由映射、组合、化简三个功能模块中的一个或多个组合而成,对每个输入文档的特征向量进行正规化,并且对构成该文档的每个词在本文档中出现次数进行计数;在映射功能模块端将每个文档作为一个原始类并对文档频率计数,在组合模块端对映射模块端产生的原始类进行本地聚类,生成局部类,在化简模块端对来自多个远端物理节点组合产生的局部类进行聚类,生成全局类;对第二个映射/化简过程产生全局类的内部关键词进行打分和排序,输出用户所需的K个高分关键词表达主题。从而处理TB级数据,并且计算能力线性上升,真正实现分布式计算,提高性能和效率。

    一种用于大数据的并行半定义分类方法与系统

    公开(公告)号:CN106096063A

    公开(公告)日:2016-11-09

    申请号:CN201610570978.0

    申请日:2016-07-19

    CPC classification number: G06F17/30011 G06F17/30861

    Abstract: 本发明提出一种用于大数据的并行半定义分类方法与系统,涉及互联网行业技术领域,该方法包括串行步骤,获取文档的类别变量z、主题变量y、文档上类别的分布θ、类别上主题的分布π、主题上词的分布φ,结合先验参数α、β、δ,对类别变量z与主题变量y进行迭代采样,直到类别变量z与主题变量y收敛到平稳分布,对主题上词的分布φ、类别上主题的分布π、主题上词的分布φ进行估计,选择主题上词的分布φ中概率最高的一个类别作为文档的类标,并根据类标进行文档分类。本发明解决了海量数据下,传统分类或者半监督聚类难以解决的半定义分类问题。

    一种基于并行自动编码机的特征学习方法及系统

    公开(公告)号:CN105825269A

    公开(公告)日:2016-08-03

    申请号:CN201610147007.5

    申请日:2016-03-15

    CPC classification number: G06N3/0454 G06F17/30545 G06N3/08

    Abstract: 本发明提供一种基于并行自动编码机的特征学习方法,包括:1)管理机执行Map操作,为各个工作机规划任务并将任务分发给每个工作机;其中,各个工作机的任务一致,均是基于所输入的数据对自动编码机的权值矩阵进行训练;所述权值矩阵包含了所述自动编码机的所有权值;2)每个工作机分别读取该工作机对应的部分数据集;3)各个工作机并行地执行管理机所分发的任务,对自动编码机的权值矩阵进行训练,然后每个工作机将它所训练的权值矩阵反馈给管理机;4)管理机执行Reduce操作,对各个工作机反馈的权值矩阵进行算数平均。本发明能够更加高效地实现特征学习;能够将并行自动编码机的数据处理的时间复杂度由二次复杂度降为线性复杂度。

    一种并行的垂直交叉网络数据采集方法及系统

    公开(公告)号:CN103258017B

    公开(公告)日:2016-04-13

    申请号:CN201310146080.7

    申请日:2013-04-24

    Inventor: 敖翔 何清 庄福振

    Abstract: 本发明提供一种并行的垂直交叉网络数据采集方法及系统,方法包括:S1确定采集方式,若是普通URL列表采集方式根据URL列表直接下载待下载网页数据及其元数据,若是垂直交叉采集方式利用交叉关键字列表检索待下载页,并下载该网页数据及其元数据;S2定时更新任务,对已下载的网页中第一层到当前层的所有网页进行扫描检查,当新下载的页面最后修改时间大于已下载的页面最后修改时间时,对该新下载的页面重新进行数据采集,更新网页数据记录。本发明避掉了多线程技术的一些潜在风险和代价,降低了多线程并行采集的潜在风险与代价,可以实现海量数据更稳定、更高效的并行采集,提高了数据读取和查询的效率。

    一种采用决策树的数据分类方法和系统

    公开(公告)号:CN102214213B

    公开(公告)日:2013-06-19

    申请号:CN201110143821.7

    申请日:2011-05-31

    Inventor: 庄福振 何清

    Abstract: 本发明公开了一种采用决策树的数据分类方法和系统。所述方法,包括下列步骤:基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;根据所述决策树,对输入的数据记录进行分类。其实现了基于MapReduce的并行决策树ID3算法,不仅可以处理大规模数据集,而且并行效率高,即实现构建决策树中节点内部以及同一层节点之间的并行计算。

    基于Spark的快速寻找聚类中心的方法和系统

    公开(公告)号:CN109389140A

    公开(公告)日:2019-02-26

    申请号:CN201710693112.3

    申请日:2017-08-14

    Abstract: 本发明涉及一种基于Spark的快速寻找聚类中心的方法,涉及计算机信息获取和处理技术。本发明实现了基于Spark的并行CFSFDP聚类算法,利用内存并行计算框架解决了CFSFDP聚类算法处理数据规模小、效率低的问题。基于Spark的并行CFSFDP聚类算法首先通过把两点距离计算分成完全独立的子部分,再将计算结果在汇总服务器上处理分析,然后继续将一系列计算任务切割成独立子任务,汇总到一台服务器上,最终并行计算得到聚类中心,在得到聚类中心后串行计算得到所有数据点的类别。本发明在处理数据中充分发挥了CFSFDP算法的优点,弥补一些常用并行聚类算法的不足。

    一种多标记学习方法
    30.
    发明公开

    公开(公告)号:CN108364073A

    公开(公告)日:2018-08-03

    申请号:CN201810062864.4

    申请日:2018-01-23

    CPC classification number: G06N20/00

    Abstract: 本发明提供一种多标记学习模型的训练方法。该方法包括以下:利用给定的多标记数据训练集对包含自动编码机和多分类模型的多标记学习模型进行训练;检查所述多标记学习模型的损失函数,所述多标记学习模型的损失函数包括所述自动编码机的损失项以及所述多分类模型的损失项;在所述损失函数不满足预定的精度要求时,迭代所述自动编码机和所述多分类模型的相关参数;获得所述多分类模型对应的训练分类器以及所述自动编码机的优化权重矩阵和偏置向量。采用本发明获得的训练模型对数据进行多分类,能够有效的利用大量未标记的数据,提高了分类的精确度。

Patent Agency Ranking