一种训练用户分类模型的方法及装置

    公开(公告)号:CN120067842A

    公开(公告)日:2025-05-30

    申请号:CN202510220527.3

    申请日:2025-02-26

    Abstract: 本说明书实施例提供了一种训练用户分类模型的方法,包括:获取基于预训练模型分别初始化的第一分类模型、第二分类模型。利用第一分类模型,对用户集的第一子集中各用户进行类簇预测,得到类簇伪标签;以及,利用第二分类模型,对各用户进行M个用户群体的分类预测,得到分类伪标签。根据各用户的类簇伪标签和分类伪标签,从第一子集中确定出未知类别的第一用户。利用第一/第二分类模型,分别对该第一用户的增强样本进行预测,得到第一/第二预测结果;以第一预测结果接近该第一用户的类簇伪标签为目标,对第一分类模型进行更新;以第二预测结果中对应于M个用户群体的预测概率之和最大化为目标,对第二分类模型进行更新。

    一种基于带噪标签学习的无监督跨模态哈希检索方法

    公开(公告)号:CN112836068B

    公开(公告)日:2023-09-26

    申请号:CN202110312838.4

    申请日:2021-03-24

    Applicant: 南京大学

    Inventor: 詹德川 杭诚 王魏

    Abstract: 本发明公开了一种基于带噪标签学习的无监督跨模态哈希检索方法,包括多模态数据采集步骤、对偶多模态神经网络搭建步骤、基于预训练神经网络提取带噪声的相似度伪标签、基于带噪声标签学习的无监督跨模态哈希训练步骤和最终的对偶跨模态哈希检索的测试步骤。本发明可以通过设置两个对偶哈希模型组,相互喂给对方相对来说比较干净的伪标签,从而使得模型的学习尽可能少的受到噪声伪标签的误导,最终效果是模型收敛到一个更好的位置,在测试数据集上表现要比别的无监督跨模态哈希方法要好。

    一种基于局部与全局信息的图片选择标注方法

    公开(公告)号:CN113269226A

    公开(公告)日:2021-08-17

    申请号:CN202110399472.9

    申请日:2021-04-14

    Applicant: 南京大学

    Inventor: 王魏 李文韬 陈攀

    Abstract: 本发明公开一种基于局部与全局信息的图片选择标注方法,通过让学习模型自动地选择部分图片进行标注,能够利用尽可能少的有标记图片学到尽可能好的模型。为了降低图片标记的需求,该方法利用深度模型的特征提取能力构建图片样本的特征表示空间,基于图片样本在特征表示空间的局部信息衡量样本对于模型更新的作用。同时基于特征表示空间的全局信息将图片数据空间划分为不同的区域,根据模型在不同区域上的性能动态分配标注预算,从而高效地利用图片标记信息,降低图片标记的需求。

    一种基于带噪标签学习的无监督跨模态哈希检索方法

    公开(公告)号:CN112836068A

    公开(公告)日:2021-05-25

    申请号:CN202110312838.4

    申请日:2021-03-24

    Applicant: 南京大学

    Inventor: 詹德川 杭诚 王魏

    Abstract: 本发明公开了一种基于带噪标签学习的无监督跨模态哈希检索方法,包括多模态数据采集步骤、对偶多模态神经网络搭建步骤、基于预训练神经网络提取带噪声的相似度伪标签、基于带噪声标签学习的无监督跨模态哈希训练步骤和最终的对偶跨模态哈希检索的测试步骤。本发明可以通过设置两个对偶哈希模型组,相互喂给对方相对来说比较干净的伪标签,从而使得模型的学习尽可能少的受到噪声伪标签的误导,最终效果是模型收敛到一个更好的位置,在测试数据集上表现要比别的无监督跨模态哈希方法要好。

    一种基于图像文本模型和视频多头表征的视频检索方法

    公开(公告)号:CN118377932A

    公开(公告)日:2024-07-23

    申请号:CN202410413760.9

    申请日:2024-04-08

    Applicant: 南京大学

    Inventor: 王魏 俞星凯

    Abstract: 本发明公开一种基于图像文本模型和视频多头表征的视频检索方法,首先用户需要准备好一个视频库和查询文本库,以及从查询文本到视频的映射标记。为了利用图像文本预训练模型,对视频库均匀降采样抽帧,每个视频变为若干个图像组成的序列,先将图像独立由ViT处理为向量表征,再通过时序Transformer学习视频内的图像序列关系。由于真实视频可能存在多个自然段具有不同语义,采用多头表示将图像序列进行多种线性加权组合,于是每个视频被编码为若干个向量表征。而图像文本预训练模型已经可以将文本编码成向量表征,最后使用对比学习的InfoNCE损失优化来对齐表征。推理阶段预先处理视频存储向量数据库,实时计算用户查询表征,执行相似度搜索给出排序,以实现低延迟高并发视频检索。

    一种适用于长尾带噪分布数据的故障检测方法

    公开(公告)号:CN115688860A

    公开(公告)日:2023-02-03

    申请号:CN202211435489.6

    申请日:2022-11-16

    Abstract: 本发明公开一种适用于长尾带噪分布数据的故障检测方法。现实应用中,故障检测数据通常包含噪声标记且服从长尾分布。为了减轻噪声标记对模型性能的影响,本发明方法采用样本选择技术将噪声标记数据分为干净标记数据集合和无标记数据集合后以半监督学习方式更新模型;为了减轻长尾分布对模型性能的影响,本发明方法使用基于模型偏好的新型平衡损失对模型进行矫正。相比于现有技术,本发明方法对长尾带噪分布数据的故障检测具有更强的鲁棒性。

    一类含苯乙烯基喹喔啉酮衍生物及其制备方法

    公开(公告)号:CN111675665A

    公开(公告)日:2020-09-18

    申请号:CN202010593848.5

    申请日:2020-06-24

    Applicant: 南京大学

    Abstract: 本发明属于药物化学技术领域,具体涉及一类含苯乙烯基喹喔啉酮衍生物及其制备方法,所述合成的化合物的结构如下式I所示。它是以简单易得的4,5-二氯-1,2苯二胺和丙酮酸为原料,同时兼具条件温和,方法简单,反应易得的优点,拓宽了现有喹喔啉酮类化合物的种类,具有重要的理论和经济价值。

    一种利用混合无标记数据的半监督域泛化故障检测方法

    公开(公告)号:CN117556301A

    公开(公告)日:2024-02-13

    申请号:CN202311570546.6

    申请日:2023-11-23

    Applicant: 南京大学

    Inventor: 王魏 张磊 李济孚

    Abstract: 本发明公开一种利用混合无标记数据的半监督域泛化故障检测方法,首先用户需要准备好若干个来自不同域的故障检测对象库,通过人工标注的方法为每个库中的少量对象提供类别标记,这些有类别标记的对象称为有标记训练数据,其组成的类别空间称为已知类;其余没有类别标记的对象称为无标记训练数据,其真实类别可能与有标记训练数据的类别相同,也有可能不同,与有标记训练数据不同的类别称为未知类。然后通过利用一对其余分类模型,逐类自适应置信度阈值以及一致性正则等技术,有效地将无标记训练数据中的已知类以及未知类样本区分开来,更加精细化地分别利用已知类和未知类样本进行训练,提高故障检测的准确度。

Patent Agency Ranking