一种基于数据增强的分布外异常样本检测方法

    公开(公告)号:CN113392890B

    公开(公告)日:2024-10-15

    申请号:CN202110635014.0

    申请日:2021-06-08

    申请人: 南京大学

    摘要: 本发明提出了一种基于数据增强的分布外异常样本检测方法。特征提取阶段,使用自动编码器算法的编码器部分,提取输入分布内样本的特征向量;数据增强和重建阶段,使用基于特征的数据增强方法对特征提取阶段提取到的特征进行变换,并使用自动编码器的解码器部分,从增强后的特征向量中生成数量充足且包含语义信息的辅助分布外异常样本数据集;样本标记阶段,将原始分类器对重建样本的预测准确度作为分布外异常样本的软标签值;分类器重训练阶段,联合包含硬标签监督信号的分布内训练数据集及包含软标签监督信号辅助分布外异常样本数据集,重新训练分类器;本发明改善了深度神经网络模型在预测分布外异常样本时的不确定性,提升了模型的安全性。

    一种基于图神经网络的众测推荐方法

    公开(公告)号:CN113377656B

    公开(公告)日:2023-06-23

    申请号:CN202110664346.1

    申请日:2021-06-16

    申请人: 南京大学

    摘要: 本发明公开了一种基于图神经网络的众测推荐方法,将用户与项目形成的二分图和用户之间的社交网络进行融合,合成异质图,如果存在新加入的用户或者项目,在异质图上生成新边以增加节点之间关联度;将用户特征、项目特征与第一步中生成的异质图送入图神经网络,最后生成用户的嵌入表示、项目的嵌入表示以及边的嵌入表示;然后送入关系嵌入表示的双线性解码器中,对于每种关系都得到一个数值,进行softmax之后得到关系可能性分布,最后根据可能性大小得出一个推荐列表。本发明公不仅将众测人员与项目之间的关系和众测人员之间的社交网络相结合,而且提高了推荐的准确性,有效的缓解推荐系统冷启动问题。

    一种基于用户和项目双重时序相关性的众测任务推荐方法

    公开(公告)号:CN113360759A

    公开(公告)日:2021-09-07

    申请号:CN202110641787.X

    申请日:2021-06-09

    申请人: 南京大学

    摘要: 一种基于用户和项目双重时序相关性的众测任务推荐方法,包括以下步骤,S1,计算用户间和项目间的关系权重,利用历史交互行为的偏序关系构建属性网络,并通过属性网络定义用户间和项目间的相似关系;S2,计算时间片相关性,获取任意时间片的相似时间片集合,利用用户间和项目间的关系权重计算用户时间片和项目时间片的相似关系;S3,构建待预测时间片用户项目矩阵,所述用户项目交互矩阵由用户时间片特征矩阵和项目时间片特征矩阵相乘得到,两种特征矩阵由待预测时间片相似时间片向量构成;S4,神经协同过滤网络随时间片更新而不断训练,直到网络更新至待预测时间片,随后对用户行为进行预测,得到预测结果。

    一种基于深度域适应的跨域测试文档分类方法

    公开(公告)号:CN113360633A

    公开(公告)日:2021-09-07

    申请号:CN202110641886.8

    申请日:2021-06-09

    申请人: 南京大学

    摘要: 本发明提出了一种基于深度域适应的跨域测试文档分类方法。包括1、数据采集阶段,获取足够多的辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;2、数据预处理阶段,对俩个领域的全部文档进行词语的划分之后进行去重和去停用词,之后进行字典的构建,再将每一个文档表示成one‑hot向量的形式;3、在跨域数据迁移阶段,将辅助领域和目标领域的数据同时送入深度网络中,来进行特征的学习和提取。本发明节省了数据标注的时间和人力成本,可结合多种网络结构进行特征的提取。

    一种基于tf-idf和倒排索引的众测助理实现方法

    公开(公告)号:CN113360596A

    公开(公告)日:2021-09-07

    申请号:CN202110634912.4

    申请日:2021-06-08

    申请人: 南京大学

    摘要: 本发明提出了一种基于tf‑idf和倒排索引的众测助理实现方法。数据采集阶段,从百度问答中爬取问答数据集,在爬取过程中进行筛选;数据预处理阶段,对每一个问题进行分词,并计算每一个词的频率,获得每个句子的tf‑idf向量表示;输入预处理阶段,对用户的输入进行分词,若涉及到不合适的词,如敏感词,政治词,则不予返回,将用户的输入去除停用词后转化为tf‑idf向量表示;答案返回阶段,利用倒排索引获得与输入相关的候选问题,计算输入与候选问题的相似度,并将相似度最高的k个问题的答案返回给用户作为结果。本发明利用倒排索引的思想加快了查找相似问题的效率,能应对问答对增加带来的内存爆炸问题。

    一种面向众测任务发布的图文生成方法

    公开(公告)号:CN112634405A

    公开(公告)日:2021-04-09

    申请号:CN202011373051.0

    申请日:2020-11-30

    申请人: 南京大学

    摘要: 本发明公开了一种面向众测任务发布的图文生成方法,获取足够多的真实众测场景任务发布中的相关数据,针对不同任务,对数据进行整理和清洗;根据预处理后的结构化任务相关词,使用基于规则和模板的方法生成优质的完整任务文本描述;根据相关的任务方提供的任务描述和相关背景图生成与任务相关的词云图。使用统计得到的相关风格数据集,使用MUNIT网络模型进行无监督训练风格迁移模型。本发明通过生成相对应的任务发布文本和相关任务图片,在减轻了众测平台管理方的压力同时,能够增加众测平台使用人员的交互并且使相关任务重点内容更突出,提高了浏览和查看任务的效率。

    一种基于三维R树的时空数据的存储及检索和更新方法

    公开(公告)号:CN110532255A

    公开(公告)日:2019-12-03

    申请号:CN201910420403.4

    申请日:2019-05-20

    申请人: 南京大学

    摘要: 本发明公开了一种基于三维R树的时空数据的存储及检索和更新方法,根据时空数据在空间中的位置关系,通过聚类的方式将相似的样本划分到同一个类别中,每个类别作为接下来建立R树的一个基本单元。使用三维R树来存储由二维空间数据和时间数据组成的时空数据,且在R树中的每个结点存储该条数据在原始数据库中的主键id。在数据检索阶段,获得包含该数据的最小立方体块,接下来在此立方体块中对数据进行精确查找。在数据更新阶段,原始数据被插入到外部数据库中,同时向R树中增加其对应的新的索引。本发明将R树用于时空数据的存储与检索优化,利用R树具有高平衡性的特点,可以显著地提高数据检索、更新时的效率。

    基于词网络进行特征扩展的短文本主题模型挖掘方法

    公开(公告)号:CN106055604B

    公开(公告)日:2019-08-27

    申请号:CN201610353388.2

    申请日:2016-05-25

    申请人: 南京大学

    IPC分类号: G06F16/335 G06F16/35

    摘要: 一种基于词网络进行特征扩展的短文本主题模型挖掘方法,1)带权词网络构建步骤:2)短文本特征扩展步骤:3)主题挖掘步骤:将步骤2短文本特征扩展后的语料库作为训练集进行LDA吉布斯采样;采样后获得“中文分词后的文档‑主题”分布和“主题‑带权词网络中的节点是词语词语”分布;结束;计算邻接点加入社团前后的模块度增量,模块度是衡量社团好坏的标准,指网络中连接社团内部节点的边所占的比例与另外一个随机网络中连接社团内部节点的边所占比例的期望值相减得到的差值。

    一种基于长短期记忆网络的比较关系抽取的方法

    公开(公告)号:CN108920448A

    公开(公告)日:2018-11-30

    申请号:CN201810472088.5

    申请日:2018-05-17

    申请人: 南京大学

    IPC分类号: G06F17/27 G06F17/30 G06N3/04

    摘要: 一种基于长短期记忆网络的比较句关系抽取的方法,包括语料库构建阶段、比较句句型极性分析构建阶段、特征-情感本体库构建阶段和比较要素抽取阶段、比较关系获取阶段,其中,语料库构建阶段,爬取互联网电商平台的评论数据,并对数据进行预处理,最终形成语料库;比较句句型极性分析构建阶段,总结语料库中的比较句句型,并对各句型的极性关系展开;特征-情感本体库构建阶段,总结语料库中的特征词、情感词,并映射到本体库;比较要素抽取阶段,利用词向量构建句子的向量矩阵表示作为网络的输入,比较关系获取阶段,综合比较句句型、特征-情感本体库以及比较要素,最终获得比较关系。

    一种中西医联合用药禁忌预警系统

    公开(公告)号:CN104794341B

    公开(公告)日:2018-02-23

    申请号:CN201510187174.8

    申请日:2015-04-20

    申请人: 南京大学

    IPC分类号: G06F19/00 G06F17/30

    摘要: 一种中西医联合用药禁忌预警系统,包括中西药单味药物的信息查询和中西药多味药物相互关系的禁忌查询两部分;其中数据源主要含有“十八反十九畏”药物对的古代文献,实验数据,中成药数据,现代文献,分子数据等多种数据源;现代文献的采集主要通过HTTP请求对网页上的含有相关不良禁忌关键字的文献进行抓取,通过专家对采集数据进行审核,将有用现代文献数据以同一格式存在本地数据库中,以确保数据库中数据的实时更新。