一种基于噪声标签学习的众包获取标签数据清洗方法

    公开(公告)号:CN113361201B

    公开(公告)日:2023-08-25

    申请号:CN202110645466.7

    申请日:2021-06-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于噪声标签学习的众包获取标签数据清洗方法,在模型热启动阶段,使用带有噪声的标签数据初步训练深度模型;在噪声分离阶段,通过模型对训练数据进行预测,计算噪声标签与预测类别间的损失,采用高斯混合模型拟合损失的分布,得到各个数据在属于均值较小子分布的概率,依据该概率的大小将数据分为纯净数据和噪声数据两部分;在重新训练阶段,使用有更大概率为纯净数据的一部分重新训练模型;最后根据深度模型中数据损失的大小进行噪声清洗;本发明对众包获取的带噪声标签数据进行清洗,可大幅提高众包获取数据的质量;并且结合了深度学习模型的拟合能力,可以纠正特征与标签依赖关系复杂时的噪声标签。

    一种基于频率属性和PCA的时空索引建立方法

    公开(公告)号:CN110134692B

    公开(公告)日:2023-04-07

    申请号:CN201910413012.X

    申请日:2019-05-17

    Applicant: 南京大学

    Abstract: 一种基于频率属性和PCA的时空索引建立方法,1)数据采集,采集并获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间以及查询频率四个特征(称为基于频率属性的时空特征)的数据,数据的这四个特征字段不能存在任何缺失;2)数据预处理,将获取的当前划分的数据块中所有数据看作时空三维坐标系中的点,选取前K个(默认为4)频率最大的数据点,根据PCA算法得到这四个点对应的投影平面;3),索引计算,根据在投影面上的四个点,连接这四个点构成一个凸四边形,选取四条边的中点并连接对边的中点以此构建两个划分平面;4)索引建立,递归的进行步骤2和步骤3的划分操作,每一个划分的空间块即可对应为树中的一个结点。

    一种基于图神经网络的自适应众包任务推荐方法

    公开(公告)号:CN114418253A

    公开(公告)日:2022-04-29

    申请号:CN202110664342.3

    申请日:2021-06-16

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于图神经网络的自适应众包任务推荐方法,获取真实应用场景中的众包任务对象集合和推荐人群集合,根据众包任务对象和推荐人群依据经典KNN方法构建出众包网络图结构和推荐人群网络图结构;利用图神经网络方法GCN分别在众包网络图结构、推荐人群网络图结构上进行多轮信息传播,对众包任务以及推荐人进行任务嵌入表示和推荐人嵌入表示学习;递归的进行嵌入表示学习操作,多轮学习后,将得到的众包嵌入表示和推荐人嵌入表示采用t‑SNE映射到同一空间当中,根据邻近原则,将对应的任务推荐到具体到个人。本发明不仅可精准推荐众包任务到个人,而且比传统的众包任务推荐方法更加高效且准确,且更加科学合理。

    基于机器学习可解释性的人体指标-脑卒中关系分析系统

    公开(公告)号:CN112447292B

    公开(公告)日:2022-03-25

    申请号:CN202011336107.5

    申请日:2020-11-25

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于机器学习可解释性的人体指标‑脑卒中关系分析系统,包括数据输入模块、数据预处理模块、机器学习模块、相关性分析模块、指标近邻寻找模块、新样本制造模块、新样本预测统计模块,通过对属性进行相关性分析,当一个属性改变时,与它相关的属性也随之改变,使生成的新样本更接近实际情况,由此来研究脑卒中患病情况与人体指标变化的关系,本发明可以得到身体指标变化对是否患脑卒中的影响,对进一步研究疾病的预防有着重要的作用。

    一种基于完全信息下竞价博弈的任务分配方法

    公开(公告)号:CN113868932A

    公开(公告)日:2021-12-31

    申请号:CN202110641786.5

    申请日:2021-06-09

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于完全信息下竞价博弈的任务分配方法,包括,进行数据采集,获取真实应用场景中用户的策略数据和能力数据;对获取到的数据进行数据预处理,使用PSO算法获取每项任务下的用户最优排序;进行动态博弈,建立不断演化的动态博弈机制;进行攻防演化博弈,考虑到实际应用中的信息不完全共享条件,进一步构建攻防演化博弈模型。通过本发明可以对任务分配过程设计了优化算法,对任务进行解析并根据工人的能力函数进行自监督学习,在此基础上使用了改进的演化攻防博弈,通过不同众测规模以及有无扰动的对比实验,使传统的算法模型收敛更好,且能在外部扰动下很好的节约众测成本。具有较强的实用性,适用于所有的众包系统系统中。

    一种基于数据增强的分布外异常样本检测方法

    公开(公告)号:CN113392890A

    公开(公告)日:2021-09-14

    申请号:CN202110635014.0

    申请日:2021-06-08

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于数据增强的分布外异常样本检测方法。特征提取阶段,使用自动编码器算法的编码器部分,提取输入分布内样本的特征向量;数据增强和重建阶段,使用基于特征的数据增强方法对特征提取阶段提取到的特征进行变换,并使用自动编码器的解码器部分,从增强后的特征向量中生成数量充足且包含语义信息的辅助分布外异常样本数据集;样本标记阶段,将原始分类器对重建样本的预测准确度作为分布外异常样本的软标签值;分类器重训练阶段,联合包含硬标签监督信号的分布内训练数据集及包含软标签监督信号辅助分布外异常样本数据集,重新训练分类器;本发明改善了深度神经网络模型在预测分布外异常样本时的不确定性,提升了模型的安全性。

    一种基于长短期记忆网络的比较关系抽取的方法

    公开(公告)号:CN108920448B

    公开(公告)日:2021-09-14

    申请号:CN201810472088.5

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 一种基于长短期记忆网络的比较句关系抽取的方法,包括语料库构建阶段、比较句句型极性分析构建阶段、特征‑情感本体库构建阶段和比较要素抽取阶段、比较关系获取阶段,其中,语料库构建阶段,爬取互联网电商平台的评论数据,并对数据进行预处理,最终形成语料库;比较句句型极性分析构建阶段,总结语料库中的比较句句型,并对各句型的极性关系展开;特征‑情感本体库构建阶段,总结语料库中的特征词、情感词,并映射到本体库;比较要素抽取阶段,利用词向量构建句子的向量矩阵表示作为网络的输入,比较关系获取阶段,综合比较句句型、特征‑情感本体库以及比较要素,最终获得比较关系。

    基于图神经网络的用户-任务关联的众包任务推荐方法

    公开(公告)号:CN113378051A

    公开(公告)日:2021-09-10

    申请号:CN202110664156.X

    申请日:2021-06-16

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于图神经网络的用户‑任务关联的众包任务推荐方法,通过众包任务平台采集真实的用户产生的用户与用户之间的交互信息、用户历史承接的众包任务信息、用户本身对于任务的偏好标签信息,并分别构建构建用户关联图、任务关联图、用户‑任务关联图;分别利用图神经网络进行训练,从而得到用户和产品的初步向量表示;利用新的图神经网络,保留用户在历史上承接的众包任务信息;通过学到的用户和产品表示,进而得到针对用户的任务推荐列表。本发明得到更加针对用户的任务推荐信息,并且针对新加入的用户,如果得到其与历史用户的连接,可以更好的解决一部分推荐冷启动问。

    一种基于MAS-Q-Learing的任务分配方法

    公开(公告)号:CN113377655A

    公开(公告)日:2021-09-10

    申请号:CN202110664158.9

    申请日:2021-06-16

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于MAS‑Q‑Learing的任务分配方法,获取真实应用场景中的用户数据,采用马尔科夫决策对用户数据进行建模,将众包人员设计成智能体五元组,通过Q值学习方法计算他们的全局收益;对邻近智能体的状态以及下一状态进行定位,采用拉普拉斯矩阵用于描述各个智能体成员之间的关联关系,采用多属性决策方法进行计算,其计算结果再经过权重分配和集结。采用时间差分方法估计动作‑值函数,同时给出了满足合理性、完整性条件的智能体状态函数。本发明不仅具有良好的鲁棒性,而且具有良好的适应性。

    一种用于众包软件测试的多路召回推荐方法

    公开(公告)号:CN113360632A

    公开(公告)日:2021-09-07

    申请号:CN202110641238.2

    申请日:2021-06-09

    Applicant: 南京大学

    Abstract: 一种用于众包软件测试的多路召回推荐方法,S1,进行数据采集,获取用于多路召回的数据集,该数据集包括用户信息、用户社交信息、项目信息、项目文本描述和用户历史完成项目情况;S2,对数据进行预处理,计算用于多路召回模型的输入数;S3,进行项目多路召回,通过计算用户相似度找到目标用户的相似用户,通过用户‑项目交互矩阵找到目标用户和相似用户的历史完成项目;S4,进行用户多路召回,通过计算项目相似度和项目文本嵌入相似度找到目标项目的相似项目,通过用户‑项目交互矩阵找到完成过目标项目和相似项目的用户,通过计算用户相似度和用户关系矩阵找到用户的相似用户,从而完成对于众包测试用户的多路召回。

Patent Agency Ranking