一种利用混合未标记数据的分布外样本检测方法

    公开(公告)号:CN115730656A

    公开(公告)日:2023-03-03

    申请号:CN202211434819.X

    申请日:2022-11-16

    Inventor: 王魏 孙一轩

    Abstract: 本发明公开了一种利用混合未标记数据的分布外样本检测方法,具体步骤如下:(一)首先用户需要准备好一个对象库,通过人工标注的方法为库中的少量对象提供一个类别标记,这些有类别标记的对象称为有标记训练数据,一共有K个类别,其余没有类别标记地对象称为未标记训练数据。由于这些未标记训练数据可能混杂有分布内和分布外的样本,因此也称之为混合未标记数据;(二)本发明通过利用自适应温度以及动态置信度阈值等技术,有效地将未标记训练数据中的分布内以及分布外样本区分开来,使得训练得到的模型可以在保证分布内样本分类准确率的同时,更为准确地检测分布外样本。

    一种基于分组加权的多机构联合的图像识别模型训练方法

    公开(公告)号:CN115730655A

    公开(公告)日:2023-03-03

    申请号:CN202211597343.1

    申请日:2022-12-12

    Applicant: 南京大学

    Inventor: 王魏 蔡驰宇

    Abstract: 本发明公开一种基于分组加权的多机构联合的图像识别模型训练方法,该方法可以应用于医疗图像识别等拥有多个参与方的协作学习任务。为了缓解医疗图像数据分布不一致带来的影响,首先,本发明根据客户端模型和组内全局模型的相似程度为客户端分组;对于组内客户端,本发明根据组内客户端本地模型两两之间的相似程度,为每个客户端计算个性化模型。相比现有技术,本发明能够在降低客户端计算开销的同时,为参与方提供更好的图像识别模型。

    一种基于对比损失的多视图半监督图像分类方法

    公开(公告)号:CN114898141A

    公开(公告)日:2022-08-12

    申请号:CN202210350338.4

    申请日:2022-04-02

    Applicant: 南京大学

    Inventor: 王魏 朱明璇

    Abstract: 本发明公开了一种基于对比损失的多视图半监督图像分类方法,在无标签数据上利用自监督对比损失,能够充分利用数据的潜在特征,同时基于监督对比损失,利用类别监督信息,并借助多视图的一致性对不同视图信息进行融合,实现了不需要借助伪标签提升模型在多视图分类任务上的精度。此方法针对半监督场景下的多视图图像分类任务,能够利用少量的标注信息并借助多视图之间的一致性提升分类性能,适用于解决缺乏数据标签信息的多视图图像分类任务。

    一种基于平均损失和逐类选择的弱监督图片分类方法

    公开(公告)号:CN113283467A

    公开(公告)日:2021-08-20

    申请号:CN202110399477.1

    申请日:2021-04-14

    Applicant: 南京大学

    Inventor: 王魏 桂贤进

    Abstract: 本发明公开一种基于平均损失和逐类选择的弱监督图片分类方法,基于图片样例的平均损失,从带噪标记图片数据中逐类选择出低风险的数据,并将剩下未被选中的高风险图片样例视为未标记数据,利用弱监督学习技术将选中的低风险数据和未标记数据进行混合生成更多的伪标记数据扩充训练集。在混合过程中,需要对选出的低风险图片样例根据损失值的大小设置权值,并基于加权重采样技术来进一步降低风险。利用生成的伪标记数据训练深度神经网络最终得到高性能的图片分类器。本方法可以应用于各种弱监督条件下基于带有噪声标记图片数据的学习,具有较好的效果。

    一种基于不充分模态信息的半监督网页自动分类方法

    公开(公告)号:CN106934055B

    公开(公告)日:2020-05-19

    申请号:CN201710163950.X

    申请日:2017-03-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于不充分模态信息的半监督网页自动分类方法,基于加权协同训练算法,在训练分类器的过程中给数据分配不同的权值。本发明方法能够减少由于不充分模态特征引起的数据不一致性对分类过程所带来的影响,从而具有更好的分类精度与更强的鲁棒性。此外,本发明方法仅需要少量的有标记训练数据,能够利用未标记数据的信息,因而可用于标记训练数据匮乏的场景。

    一种基于对比损失的多视图半监督图像分类方法

    公开(公告)号:CN114898141B

    公开(公告)日:2025-04-11

    申请号:CN202210350338.4

    申请日:2022-04-02

    Applicant: 南京大学

    Inventor: 王魏 朱明璇

    Abstract: 本发明公开了一种基于对比损失的多视图半监督图像分类方法,在无标签数据上利用自监督对比损失,能够充分利用数据的潜在特征,同时基于监督对比损失,利用类别监督信息,并借助多视图的一致性对不同视图信息进行融合,实现了不需要借助伪标签提升模型在多视图分类任务上的精度。此方法针对半监督场景下的多视图图像分类任务,能够利用少量的标注信息并借助多视图之间的一致性提升分类性能,适用于解决缺乏数据标签信息的多视图图像分类任务。

    一种基于标记风险控制的数据去噪方法

    公开(公告)号:CN113283578B

    公开(公告)日:2024-07-23

    申请号:CN202110399544.X

    申请日:2021-04-14

    Applicant: 南京大学

    Inventor: 王魏 胡圣佑

    Abstract: 本发明公开一种基于标记风险控制的数据去噪方法,数据深度学习的成功往往依赖于大量有准确标记的数据,但是实际场景中通常很难收集到大量标记准确的数据。为了减少数据标记噪声对神经网络性能的影响,本发明方法中维护两个神经网络互相选择损失小的数据作为低风险数据给对等网络进行更新,每个网络分别过滤掉其中的高风险数据并在剩下的数据上重新训练。随着训练的进行两个网络会越来越相似导致学习性能退化,为了解决这一问题,当两个神经网络的不一致性达到稳定时停止互相选择数据,利用得到的低风险数据更新网络直到收敛。相比现有技术,本发明使深度神经网络具有更强的鲁棒性。

    一种面向医疗图像处理的医疗机构协作关系识别方法

    公开(公告)号:CN115714005A

    公开(公告)日:2023-02-24

    申请号:CN202211477561.1

    申请日:2022-11-23

    Applicant: 南京大学

    Inventor: 王魏 丁姝

    Abstract: 本发明公开一种面向医疗图像处理的医疗机构协作关系识别方法,收集各个医疗机构用于医疗图像处理所需要的训练数据;计算多个医疗机构中每两个医疗机构之间的贡献度,根据贡献度构建多个医疗机构各自的贡献度向量,将多个医疗机构划分成若干个小组;本发明能够自适应的将具有相似协作伙伴的医疗机构进行分组构建医疗图像处理模型,以充分挖掘多机构数据的潜能和深层价值,使得各个机构都能受益于他方机构不同数据带来的增益,从而学习到泛化能力较强的优质医疗图像处理模型;本发明通过标记不满足预设条件的医疗机构,使得通过分组构建的模型与具有最优性能的个性化模型性能相当,而本发明的计算开销远小于训练个性化模型需要的计算开销。

    一种基于平均损失和逐类选择的弱监督图片分类方法

    公开(公告)号:CN113283467B

    公开(公告)日:2022-10-18

    申请号:CN202110399477.1

    申请日:2021-04-14

    Applicant: 南京大学

    Inventor: 王魏 桂贤进

    Abstract: 本发明公开一种基于平均损失和逐类选择的弱监督图片分类方法,基于图片样例的平均损失,从带噪标记图片数据中逐类选择出低风险的数据,并将剩下未被选中的高风险图片样例视为未标记数据,利用弱监督学习技术将选中的低风险数据和未标记数据进行混合生成更多的伪标记数据扩充训练集。在混合过程中,需要对选出的低风险图片样例根据损失值的大小设置权值,并基于加权重采样技术来进一步降低风险。利用生成的伪标记数据训练深度神经网络最终得到高性能的图片分类器。本方法可以应用于各种弱监督条件下基于带有噪声标记图片数据的学习,具有较好的效果。

    一种基于局部与全局信息的图片选择标注方法

    公开(公告)号:CN113269226B

    公开(公告)日:2022-09-23

    申请号:CN202110399472.9

    申请日:2021-04-14

    Applicant: 南京大学

    Inventor: 王魏 李文韬 陈攀

    Abstract: 本发明公开一种基于局部与全局信息的图片选择标注方法,通过让学习模型自动地选择部分图片进行标注,能够利用尽可能少的有标记图片学到尽可能好的模型。为了降低图片标记的需求,该方法利用深度模型的特征提取能力构建图片样本的特征表示空间,基于图片样本在特征表示空间的局部信息衡量样本对于模型更新的作用。同时基于特征表示空间的全局信息将图片数据空间划分为不同的区域,根据模型在不同区域上的性能动态分配标注预算,从而高效地利用图片标记信息,降低图片标记的需求。

Patent Agency Ranking