一种并行的垂直交叉网络数据采集方法及系统

    公开(公告)号:CN103258017A

    公开(公告)日:2013-08-21

    申请号:CN201310146080.7

    申请日:2013-04-24

    Inventor: 敖翔 何清 庄福振

    Abstract: 本发明提供一种并行的垂直交叉网络数据采集方法及系统,方法包括:S1确定采集方式,若是普通URL列表采集方式根据URL列表直接下载待下载网页数据及其元数据,若是垂直交叉采集方式利用交叉关键字列表检索待下载页,并下载该网页数据及其元数据;S2定时更新任务,对已下载的网页中第一层到当前层的所有网页进行扫描检查,当新下载的页面最后修改时间大于已下载的页面最后修改时间时,对该新下载的页面重新进行数据采集,更新网页数据记录。本发明避掉了多线程技术的一些潜在风险和代价,降低了多线程并行采集的潜在风险与代价,可以实现海量数据更稳定、更高效的并行采集,提高了数据读取和查询的效率。

    一种采用决策树的数据分类方法和系统

    公开(公告)号:CN102214213A

    公开(公告)日:2011-10-12

    申请号:CN201110143821.7

    申请日:2011-05-31

    Inventor: 庄福振 何清

    Abstract: 本发明公开了一种采用决策树的数据分类方法和系统。所述方法,包括下列步骤:基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;根据所述决策树,对输入的数据记录进行分类。其实现了基于MapReduce的并行决策树ID3算法,不仅可以处理大规模数据集,而且并行效率高,即实现构建决策树中节点内部以及同一层节点之间的并行计算。

    一种基于知识图谱的小样本图片识别方法及系统

    公开(公告)号:CN112766354B

    公开(公告)日:2023-11-24

    申请号:CN202110041403.0

    申请日:2021-01-13

    Abstract: 本发明提出一种基于知识图谱的小样本图片识别方法及系统,包括:获取包含训练图片集中所有种类标签的知识图谱,通过图神经网络对知识图谱进行特征提取,得到知识图谱的节点特征,通过求和网络对节点特征和训练图片集的均值特征进行求和处理,得到各组训练图片集的最终训练特征;以与最终测试特征相似度最高的最终训练特征对应种类标签为训练图片集的识别结果,并以训练图片集的类别标签作为训练目标,优化更新卷积神经网络、图神经网络和求和网络,保存当前卷积神经网络、图神经网络和求和网络作为图片识别模型;将待识别图片输入图片识别模型,得到待识别图片的种类作为图片识别结果。

    一种基于知识图谱的小样本图片识别方法及系统

    公开(公告)号:CN112766354A

    公开(公告)日:2021-05-07

    申请号:CN202110041403.0

    申请日:2021-01-13

    Abstract: 本发明提出一种基于知识图谱的小样本图片识别方法及系统,包括:获取包含训练图片集中所有种类标签的知识图谱,通过图神经网络对知识图谱进行特征提取,得到知识图谱的节点特征,通过求和网络对节点特征和训练图片集的均值特征进行求和处理,得到各组训练图片集的最终训练特征;以与最终测试特征相似度最高的最终训练特征对应种类标签为训练图片集的识别结果,并以训练图片集的类别标签作为训练目标,优化更新卷积神经网络、图神经网络和求和网络,保存当前卷积神经网络、图神经网络和求和网络作为图片识别模型;将待识别图片输入图片识别模型,得到待识别图片的种类作为图片识别结果。

    基于细粒度领域自适应的跨领域图像分类方法及系统

    公开(公告)号:CN111259941A

    公开(公告)日:2020-06-09

    申请号:CN202010025566.5

    申请日:2020-01-10

    Abstract: 本发明提出一种基于细粒度领域自适应的跨领域图像分类方法及系统,包括:依次输入源领域图片和目标领域图片至卷积神经网络,分别得到源领域图片的源特征向量和目标领域图片的目标特征向量;依次输入源特征向量和目标特征向量至多层全连接层,在每个全连接层使用局部最大均值差异损失衡量源领域和目标领域的特征差异,将源特征向量经过多层全连接层处理后送入分类器获得预测标签,预测标签结合预标记的类别标签得到交叉熵,交叉熵和特征差异作为分类损失函数;最小化分类损失函数,直到分类损失函数收敛,保存当前卷积神经网络作为图像特征提取网络,将目标领域中待分类图片输入至图像特征提取网络,得到待分类图片的图像分类结果。

    一种面向大数据的分布式主题发现方法及系统

    公开(公告)号:CN103593418B

    公开(公告)日:2017-03-29

    申请号:CN201310526790.2

    申请日:2013-10-30

    Abstract: 本发明涉及一种面向大数据的分布式主题发现系统及方法,包含三个并行处理过程,每个过程均由映射、组合、化简三个功能模块中的一个或多个组合而成,对每个输入文档的特征向量进行正规化,并且对构成该文档的每个词在本文档中出现次数进行计数;在映射功能模块端将每个文档作为一个原始类并对文档频率计数,在组合模块端对映射模块端产生的原始类进行本地聚类,生成局部类,在化简模块端对来自多个远端物理节点组合产生的局部类进行聚类,生成全局类;对第二个映射/化简过程产生全局类的内部关键词进行打分和排序,输出用户所需的K个高分关键词表达主题。从而处理TB级数据,并且计算能力线性上升,真正实现分布式计算,提高性能和效率。

    一种用于大数据的并行半定义分类方法与系统

    公开(公告)号:CN106096063A

    公开(公告)日:2016-11-09

    申请号:CN201610570978.0

    申请日:2016-07-19

    CPC classification number: G06F17/30011 G06F17/30861

    Abstract: 本发明提出一种用于大数据的并行半定义分类方法与系统,涉及互联网行业技术领域,该方法包括串行步骤,获取文档的类别变量z、主题变量y、文档上类别的分布θ、类别上主题的分布π、主题上词的分布φ,结合先验参数α、β、δ,对类别变量z与主题变量y进行迭代采样,直到类别变量z与主题变量y收敛到平稳分布,对主题上词的分布φ、类别上主题的分布π、主题上词的分布φ进行估计,选择主题上词的分布φ中概率最高的一个类别作为文档的类标,并根据类标进行文档分类。本发明解决了海量数据下,传统分类或者半监督聚类难以解决的半定义分类问题。

    一种基于并行自动编码机的特征学习方法及系统

    公开(公告)号:CN105825269A

    公开(公告)日:2016-08-03

    申请号:CN201610147007.5

    申请日:2016-03-15

    CPC classification number: G06N3/0454 G06F17/30545 G06N3/08

    Abstract: 本发明提供一种基于并行自动编码机的特征学习方法,包括:1)管理机执行Map操作,为各个工作机规划任务并将任务分发给每个工作机;其中,各个工作机的任务一致,均是基于所输入的数据对自动编码机的权值矩阵进行训练;所述权值矩阵包含了所述自动编码机的所有权值;2)每个工作机分别读取该工作机对应的部分数据集;3)各个工作机并行地执行管理机所分发的任务,对自动编码机的权值矩阵进行训练,然后每个工作机将它所训练的权值矩阵反馈给管理机;4)管理机执行Reduce操作,对各个工作机反馈的权值矩阵进行算数平均。本发明能够更加高效地实现特征学习;能够将并行自动编码机的数据处理的时间复杂度由二次复杂度降为线性复杂度。

    一种并行的垂直交叉网络数据采集方法及系统

    公开(公告)号:CN103258017B

    公开(公告)日:2016-04-13

    申请号:CN201310146080.7

    申请日:2013-04-24

    Inventor: 敖翔 何清 庄福振

    Abstract: 本发明提供一种并行的垂直交叉网络数据采集方法及系统,方法包括:S1确定采集方式,若是普通URL列表采集方式根据URL列表直接下载待下载网页数据及其元数据,若是垂直交叉采集方式利用交叉关键字列表检索待下载页,并下载该网页数据及其元数据;S2定时更新任务,对已下载的网页中第一层到当前层的所有网页进行扫描检查,当新下载的页面最后修改时间大于已下载的页面最后修改时间时,对该新下载的页面重新进行数据采集,更新网页数据记录。本发明避掉了多线程技术的一些潜在风险和代价,降低了多线程并行采集的潜在风险与代价,可以实现海量数据更稳定、更高效的并行采集,提高了数据读取和查询的效率。

Patent Agency Ranking