-
公开(公告)号:CN109784423A
公开(公告)日:2019-05-21
申请号:CN201910104483.2
申请日:2019-02-01
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于子结构组装网络的图分类方法和系统,所述子结构组装网络包括:子结构组装单元层、池化层和全连接层;子结构组装单元层将任意大小的图结构作为输入,在每个节点上对与其相连的边通过概率方法做渐进边选择,从而组成以每个节点为中心的判别局部子结构,多个子结构组装单元层级联最终组装成较大的判别性子结构;将最后一个子结构组装单元层得到的以每个节点为中心节点的各种子结构通过池化层聚合成固定长度的特征向量以便于后续的分类;全连接层对池化层的输出进行预测得到类标签。本发明充分结合了模式搜索和深度学习提取判别性子结构,能有效减少分类误差。
-
公开(公告)号:CN108629009A
公开(公告)日:2018-10-09
申请号:CN201810424875.2
申请日:2018-05-04
Applicant: 南京信息工程大学
Abstract: 基于FrankCopula函数的主题相关性建模方法,包括如下步骤:随机初始化参数并选取超参数;根据初始化参数和超参数,使用LDA模型生成第一篇文档的主题分布和主题词分布;根据第一篇文档的主题分布和主题词分布,结合Copula函数计算每一篇文档的主题分布和主题词分布;根据计算的主题分布和主题词分布,对每篇文档的主题和主题词排序,根据概率大小选取文档的主题和主题词输出。本发明针对目前LDA模型中文档-主题分布不考虑连续文档间的互相影响的问题,引入Frank Copula工具来生成连续文档的主题相关性模型,考虑了前一篇对后一篇文档的主题分布的影响,提高了主题模型的准确度。
-
公开(公告)号:CN108681433A
公开(公告)日:2018-10-19
申请号:CN201810419353.3
申请日:2018-05-04
Applicant: 南京信息工程大学
CPC classification number: G06F3/0641 , G06K9/6215 , G06K9/6256 , G06K9/6269
Abstract: 一种用于重复数据删除的抽样选择方法,该方法基于Sig‑Dedup框架,得到初始块阈值,进而从大规模数据集中过滤出可能的匹配对放入一个新的集合S,并按相似度递增排序,然后将该集合按相似度等级随机抽取出一定数量的信息对生成经验规模的样本。通过SSAR主动学习算法,对各等级的样本进一步去除不翔实或者冗余的信息对,生成更具代表性的训练集交由专家标记,然后用它确定模糊边界值,紧接着用模糊边界值和已标记集训练支持向量机分类器SVM,自动判定模糊区域内信息对是否匹配,从而减少了需要人工标记的信息对数量。本发明大大细化了抽样选择过程,减小需要手工标记的信息对数量,极大减小专家标记成本。
-
-