一种基于数据增强的分布外异常样本检测方法

    公开(公告)号:CN113392890B

    公开(公告)日:2024-10-15

    申请号:CN202110635014.0

    申请日:2021-06-08

    申请人: 南京大学

    摘要: 本发明提出了一种基于数据增强的分布外异常样本检测方法。特征提取阶段,使用自动编码器算法的编码器部分,提取输入分布内样本的特征向量;数据增强和重建阶段,使用基于特征的数据增强方法对特征提取阶段提取到的特征进行变换,并使用自动编码器的解码器部分,从增强后的特征向量中生成数量充足且包含语义信息的辅助分布外异常样本数据集;样本标记阶段,将原始分类器对重建样本的预测准确度作为分布外异常样本的软标签值;分类器重训练阶段,联合包含硬标签监督信号的分布内训练数据集及包含软标签监督信号辅助分布外异常样本数据集,重新训练分类器;本发明改善了深度神经网络模型在预测分布外异常样本时的不确定性,提升了模型的安全性。

    一种基于扩散模型的小样本书法字体生成的方法及装置

    公开(公告)号:CN117669492A

    公开(公告)日:2024-03-08

    申请号:CN202311661725.0

    申请日:2023-12-06

    申请人: 南京大学

    发明人: 梁欣悦 霍静 李宁

    IPC分类号: G06F40/109

    摘要: 本发明公开了一种基于扩散模型的小样本书法字体生成的方法及装置,包括:构建包括标准字体与若干种书法字体配对数据集;以训练集中一张书法字体字符图片和标准字体字符图片对扩散模型进行训练,得到可泛化字体生成扩散模型;使用小样本的目标书法字体字符图片对可泛化字体生成扩散模型进行微调训练,得到目标书法字体生成扩散模型;利用目标书法字体生成扩散模型,使用标准字体字符图片进行目标书法字体的所有所需字符图片的扩散生成;对所有生成的目标书法字体字符图片集进行矢量化,得到扩充后的目标书法字体,并构建字体TrueType文件。本发明利用少量样本目标书法字体字符图片对模型进行微调,实现生成的书法字体笔锋和飞白的高真实性与高美观度。

    一种基于图神经网络的众测推荐方法

    公开(公告)号:CN113377656B

    公开(公告)日:2023-06-23

    申请号:CN202110664346.1

    申请日:2021-06-16

    申请人: 南京大学

    摘要: 本发明公开了一种基于图神经网络的众测推荐方法,将用户与项目形成的二分图和用户之间的社交网络进行融合,合成异质图,如果存在新加入的用户或者项目,在异质图上生成新边以增加节点之间关联度;将用户特征、项目特征与第一步中生成的异质图送入图神经网络,最后生成用户的嵌入表示、项目的嵌入表示以及边的嵌入表示;然后送入关系嵌入表示的双线性解码器中,对于每种关系都得到一个数值,进行softmax之后得到关系可能性分布,最后根据可能性大小得出一个推荐列表。本发明公不仅将众测人员与项目之间的关系和众测人员之间的社交网络相结合,而且提高了推荐的准确性,有效的缓解推荐系统冷启动问题。

    一种使用深度学习和空间分析的广域未知大坝自动探测方法

    公开(公告)号:CN113591668A

    公开(公告)日:2021-11-02

    申请号:CN202110844610.X

    申请日:2021-07-26

    申请人: 南京大学

    IPC分类号: G06K9/00 G06K9/62 G06N20/00

    摘要: 本发明涉及一种使用深度学习和空间分析的广域未知大坝自动探测方法,包含以下步骤:候选区提取——地表水面积约束和行政边界数据集相交约束以获取更准确的候选区;深度学习模型训练——训练三种目标识别模型,NMS算法和长度阈值融合检测结果;地理分析与综合判别——综合地形约束,相交原则和其他目标开放数据集将误检框删除,进一步提升大坝探测中的准确率。本发明提出的自动探测方法在测试数据集上表现良好,探测结果做了人工校验,准确率为80.0%,召回率为91.1%,同时,发现39个不在任何数据集上的新大坝。结果显示,本发明可以自动、快速、可靠的探测未知区域大坝的空间位置,并为其他遥感目标空间位置探测提供了流程思路。

    一种基于主题模型的短文本方面提取方法

    公开(公告)号:CN110532378B

    公开(公告)日:2021-10-26

    申请号:CN201910395663.0

    申请日:2019-05-13

    申请人: 南京大学

    摘要: 本发明公开了一种基于主题模型的短文本方面提取方法,包括如下步骤:1)伪文档构建阶段:根据数据集构建词汇共现网络,生成词汇的伪文档;2)主题嵌入模块设置阶段:基于伪文档将词嵌入与主题嵌入联合训练,丰富词汇的潜在语义信息;3)注意力机制构建阶段:基于词向量信息重构句嵌入,最小化目标函数生成词汇权重参数;4)方面词汇聚类阶段:在词嵌入高维空间应用k‑means聚类算法,输出最终方面词汇簇。本发明将主题嵌入与词嵌入联合训练,丰富了词汇的潜在语义信息,并通过注意力机制提高方面词汇权重,降低非方面词汇的权重,从而极大的提高了短文本方面提取模型的性能。

    基于指数平滑、集成学习模型的多级异常检测方法

    公开(公告)号:CN104794192B

    公开(公告)日:2018-06-08

    申请号:CN201510185479.5

    申请日:2015-04-17

    申请人: 南京大学

    IPC分类号: G06F17/30

    摘要: 一种基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,包括如下步骤:统计检测阶段:a)根据应用场景确定关键特征集合;b)对于离散特征,用滑动窗口分布直方图建模,对于连续特征用指数平滑建模;c)周期性输入各个关键特征的观测值;d)结束。集成学习训练阶段:a)利用已经标记的正常和异常样例,组成训练数据集合;b)训练随机森林分类模型;和集成学习分类阶段;本发明为包含时序特性和复杂行为模式的异常检测问题提供了一个通用框架,适合在线常驻检测,集成学习阶段使用随机森林模型具有可并行化、泛化能力强的特点,该方法可运用于如电信行业业务违规检测、金融行业信用卡欺诈检测、网络攻击检测等多个场景。

    基于社团结构挖掘算法的在线社会网络信息传播最大化方法

    公开(公告)号:CN104820945A

    公开(公告)日:2015-08-05

    申请号:CN201510186252.2

    申请日:2015-04-17

    申请人: 南京大学

    IPC分类号: G06Q50/00

    摘要: 基于复杂网络社团发现算法的信息传播最大化方法,包括如下步骤:1)复杂网络生成阶段:预处理从在线社会网络上爬取到的数据变为有向带权图;模型训练阶段:a)利用社团发现算法对复杂网络进行社团发现。b)为每一个社团,输出对应的子图。c)为每一个子图进行不同种子节点选取实验。d)利用所产生数据进行训练模型,并把得到的模型保存到指定区域以待使用。2)种子节点选取阶段:a)要进行挖掘的原始复杂网络分割为不同的社团,并生成对应子图。b)导入模型训练阶段训练好的预测。c)利用预测模型计算出每个子图应分配到几个种子节点进行挖掘。复杂网络数据中选取最具传播能力节点时的时间效率。具有选取结果优,数据处理速度快等优点。

    基于协同过滤推荐算法的机型推荐系统

    公开(公告)号:CN104794635A

    公开(公告)日:2015-07-22

    申请号:CN201510186307.X

    申请日:2015-04-17

    申请人: 南京大学

    IPC分类号: G06Q30/02

    摘要: 基于协同过滤推荐算法的手机机型推荐方法,利用协同过滤推荐算法的框架,结合机型生命周期模型和相应的打分函数来为用户精确推荐机型,包括如下步骤,包括最近邻计算阶段和机型推荐阶段:数据预处理,清除噪声和异常数据,排除不符合要求的用户和机型,从用户数据库中抽取目前正在使用的用户的个人信息和历史消费信息,从机型数据库中抽取用户目前使用机型的相关属性;利用预处理后的数据将相应的信息抽取出来为每个用户构建对应的用户向量,并使用本系统设计的方法计算用户间的相似度;计算目标用户与其他用户的相似度取相似度最大的前N个作为目标用户的最近邻居。

    一种基于视觉共生的图像分割方法

    公开(公告)号:CN102496146B

    公开(公告)日:2014-03-05

    申请号:CN201110382744.0

    申请日:2011-11-28

    申请人: 南京大学

    发明人: 李宁 郭乔进 丁轶

    IPC分类号: G06T5/00

    摘要: 本发明公开了一种基于视觉共生的图像分割方法,该方法包括像素特征提取、视觉共生关系的提取和基于视觉共生的图像分割三部分组成,其中像素特征的提取包括颜色空间的转换、特征量化等步骤,然后利用主题模型来提取各像素之间的视觉共生关系,最后进行图像的分割。本发明的优点是分割准确率高,能够充分有效的利用图像中不同物体的视觉相似性和差异性进行有效的物体的分割。