-
公开(公告)号:CN113361928A
公开(公告)日:2021-09-07
申请号:CN202110631471.2
申请日:2021-06-07
Applicant: 南京大学
IPC: G06Q10/06 , G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于异构图注意力网络的众包任务推荐方法,首先采集众包数据,依次进行特征清洗、特征筛选、特征补全处理后获得众包参与人员与任务的属性特征向量,并构建异构众包网络,按照设定元路径进行采样和预训练,获取人员与任务的节点特征表示并进行模型训练,获取节点对之间的注意力;依据注意力系数进行邻居节点信息的传递和聚合,更新人员与任务的节点特征表示;最后根据学习到的节点特征表示,计算人员与任务的相似性得分,按照得分排序进行任务推荐;本发明针对众包中已有的任务信息与人员信息,建立众包异构网络,使用图注意力网络进行众包网络中特征向量的更新,提升众包任务推荐准确度,进一步提升完成效率和完成质量。
-
公开(公告)号:CN113361611A
公开(公告)日:2021-09-07
申请号:CN202110650604.0
申请日:2021-06-11
Applicant: 南京大学
Abstract: 本发明提出了一种众包任务下的鲁棒分类器训练方法,使得训练得到的分类器结果更加鲁棒,在一定程度上可以抵御恶意对抗样本的攻击。本发明首先通过训练一个自动编码器,学习输入样例在隐空间上的表示。将输入投影到隐空间上后,进行两种处理并将损失与正常分类损失一起进行联合对抗训练,得到基本分类器f。鲁棒分类器g通过对输入样例加上高斯噪声扰动,利用蒙特卡罗方法不断查询基本分类器f,输出基本分类器输出最高的概率类别c。本发明还是一种可证明的防御,因而可以用在对安全性要求较高的任务中,在给定的安全范围内保证不会被恶意对抗样本攻击成功。
-
公开(公告)号:CN110134693A
公开(公告)日:2019-08-16
申请号:CN201910413036.5
申请日:2019-05-17
Applicant: 南京大学
IPC: G06F16/22
Abstract: 一种基于哈希和PCA的对数据的时空特征建立索引的方法,1)数据采集,获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间三个特征、称为时空三维特征的数据,这三个特征字段不能存在任何缺失;2)数据预处理,将所有时空三维特征的数据看作时空三维坐标系中的点,采用PCA算法将该坐标系的坐标轴进行旋转,得到数据在新坐标系中的坐标;3)索引计算,根据每个时空三维特征的数据的新坐标计算哈希值,并根据时空三维特征的数据分布情况调整哈希计算过程的参数;4)索引建立,为三级索引分别建立三张表,第三级索引的表存储指向时空三维特征的数据的指针,其余表存储指向下一级索引的指针。
-
公开(公告)号:CN110134692A
公开(公告)日:2019-08-16
申请号:CN201910413012.X
申请日:2019-05-17
Applicant: 南京大学
Abstract: 一种基于频率属性和PCA的时空索引建立方法,1)数据采集,采集并获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间以及查询频率四个特征(称为基于频率属性的时空特征)的数据,数据的这四个特征字段不能存在任何缺失;2)数据预处理,将获取的当前划分的数据块中所有数据看作时空三维坐标系中的点,选取前K个(默认为4)频率最大的数据点,根据PCA算法得到这四个点对应的投影平面;3),索引计算,根据在投影面上的四个点,连接这四个点构成一个凸四边形,选取四条边的中点并连接对边的中点以此构建两个划分平面;4)索引建立,递归的进行步骤2和步骤3的划分操作,每一个划分的空间块即可对应为树中的一个结点。
-
公开(公告)号:CN110110792A
公开(公告)日:2019-08-09
申请号:CN201910385391.6
申请日:2019-05-09
Applicant: 南京大学
IPC: G06K9/62
Abstract: 一种基于增量学习的多标签数据流分类方法,步骤一,初始训练阶段,将多标签数据流建模成固定实例数的数据块,根据初始的数据块,对于每个数据块进行朴素贝叶斯模型的训练以及应用KMeans算法得到簇心集合;训练好的朴素贝叶斯分类模型和簇心集合共同作为基分类器;步骤二,概念漂移检测阶段,初始学习阶段朴素贝叶斯集成模型中的基分类器数量达到一定个数时,分别从数据层面和模型层面进行概念漂移的检测;步骤三,增量更新阶段,当最新的数据块Dt到来时,针对集成模型中的每个基分类器,用Dt中的每个样本本身所携带的信息对基分类器进行更新,进行实例信息更新;能及时检测到数据流中的概念漂移,避免在遇到概念漂移时算法性能遭遇大幅下滑,而且能够对于最新到来的数据进行增量学习,保证了模型的性能。
-
公开(公告)号:CN108768980A
公开(公告)日:2018-11-06
申请号:CN201810472825.1
申请日:2018-05-17
Applicant: 南京大学
IPC: H04L29/06 , H04L12/761 , H04L12/721
CPC classification number: H04L65/4076 , H04L45/12 , H04L45/16 , H04L63/1491
Abstract: 本发明提出一种基于核约束生成的多播机制设计方法,包括如下步骤:1)生成简化图;2)在简化图中构建最小生成树,并计算得原始图中相应的斯坦纳最小树;3)初始化支付向量为VCG机制支付向量,约束矩阵和约束向量均为空集;4)将斯坦纳最小树的边权设置为当前支付向量各维度的值,并重新计算斯坦纳最小树;5)若重新计算的斯坦纳最小树保持不变,则输出当前支付向量,结束迭代;否则生成新、旧斯坦纳最小树差集所对应的新约束,并将新约束加入约束矩阵和约束向量中,再由新生成的约束矩阵和约束向量得到新的支付向量,返回步骤4)。本发明是可防御假名攻击的多播机制,并解决了VCG机制在多播机制设计中的过度支付问题。
-
公开(公告)号:CN108710611A
公开(公告)日:2018-10-26
申请号:CN201810473370.5
申请日:2018-05-17
Applicant: 南京大学
CPC classification number: G06F17/2785 , G06F17/2775
Abstract: 本发明提出一种基于词网络和词向量的短文本主题模型生成方法,包括如下步骤:1)学习语义信息:a、分词并去除停止词;b、根据预处理得到的短文本数据学习词向量;c、计算词语之间的语义相似度。2)对每个词语构建伪文档:a、基于语义相似度获得词语共现列表,构建词网络;b、计算词语向量的算术关系获得潜在词语列表;c、判断伪文档长度并决定是否加入相似词语。3)对每个伪文档进行LDA主题建模,得到原始文档的主题、词语频率分布。本发明通过引入语义信息构建伪文档,并对伪文档进行主题建模,从而解决了短文本数据的稀疏和不平衡问题,使在短文本上进行主题发现、文本分类和文本聚类等任务的性能得到提升。
-
公开(公告)号:CN108596278A
公开(公告)日:2018-09-28
申请号:CN201810470715.1
申请日:2018-05-17
Applicant: 南京大学
IPC: G06K9/62
Abstract: 本发明公开了一种基于贝叶斯非参数PCA的高维样本数据维度降低方法,包括如下步骤:1)数据集预处理阶段;2)降维维度设置阶段:设置合适的维度进行样本数据的降维工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到原始数据维度降低后的值,并输出该值。本发明将贝叶斯非参数方法与PCA方法结合,应用于高维样本数据的维度降低方面,该方法有着数据降维准确、降维后数据区分度高、以及能够自动选择合适的维度进行高维数据的降维等优点。
-
公开(公告)号:CN104794636B
公开(公告)日:2018-04-06
申请号:CN201510186309.9
申请日:2015-04-17
Applicant: 南京大学
IPC: G06Q30/02
Abstract: 基于用户显示评分的机型推荐方法,包括如下步骤:1)手机机型相似度计算:a根据时间节点选择目前主流的一些手机机型,并从互联网上采集各个手机机型的参数信息(如系统,内存等);b将上一步中得到的数据进行预处理,格式化之后存入到数据库中,即得到手机机型信息表mobile;c根据上一步得到的手机机型信息,计算每个手机机型之间的相似度,得到手机机型相似度表mobile_sim;d结束;2)目标用户邻居集合求解阶段,实现了一种高效的手机机型推荐方法,以更好的为手机商家进行机型营销。
-
公开(公告)号:CN104794339A
公开(公告)日:2015-07-22
申请号:CN201510186253.7
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F19/00
Abstract: 本发明涉及一种基于多标签模型的帕金森病证型的辅助预测方法,包括预测模型的构建、均衡性评估和挖掘预测阶段处理模块;预测模型的构建模块:选定一个主证;选取K个次证;将主证和K个次证组成新的证型集;评估该证型集的均衡性;若均衡性满足条件,则确定了主证与次证的关联性,否则返回b;将证型集作为训练数据构建一个多标签模型;均衡性评估,将得到的证型集进行组合;统计证型组合的数量和出现的频率;根据信息熵公式,计算该证型集的熵值;结束;预测阶段,将给定的待预测数据传给得到模型进行分类;将所有模型的分类结果进行投票,得到最终预测结果。该方法解决了多标签分类算法在类别稀疏和不均衡的情况下预测不准确的问题。
-
-
-
-
-
-
-
-
-