一种用于电信潜在换机用户发现的数据挖掘方法

    公开(公告)号:CN104794195A

    公开(公告)日:2015-07-22

    申请号:CN201510186319.2

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 本发明提供用于电信潜在换机用户发现的数据挖掘方法,包括如下步骤:1)数据集构造阶段:a收集用户的消费信息、用户历史换机信息、用户信息、终端信息;b数据预处理,同时产生数据集;c处理类别不均衡的数据集,形成最终的训练集和预测集;挖掘阶段:a)获取步骤1-c中处理生成的数据集;b)实施决策树算法发现潜在换机用户;c)结束。本发明是基于数据挖掘的技术在电信用户中找出潜在的换机用户。和传统的方法相比更精确、更高效,具有实现简单、代价低等一系列的优点。

    一种针对用户时空数据行为检测的Adaboost方法

    公开(公告)号:CN110955804B

    公开(公告)日:2024-03-22

    申请号:CN201911222910.3

    申请日:2019-12-03

    Applicant: 南京大学

    Abstract: 本发明公开了一种针对用户时空数据行为检测的Adaboost方法,根据用户的时空数据,空间数据用于经纬度的表示,根据时间序将这些空间点有序的连接起来形成一个轨迹图。轨迹图可以将用户的常驻点作为一个核心点将整个轨迹划分成多个环。利用空间上经纬度之间的距离计算以及时间节点上的差值计算,可以从图中得到多条特征。根据计算所得,将简单的用户时空数据转化成了更多维度的特征向量,送入机器学习的分类模型当中对用户行为分析进行预测。本发明通过图上的轨迹挖掘出用户更为丰富的潜在信息,基于机器学习Adaboost的预测方法,可以更加显著地提高预测的准确率。

    基于哈希和PCA的时空索引建立方法

    公开(公告)号:CN110134693B

    公开(公告)日:2023-05-05

    申请号:CN201910413036.5

    申请日:2019-05-17

    Applicant: 南京大学

    Abstract: 一种基于哈希和PCA的对数据的时空特征建立索引的方法,1)数据采集,获取足够多的真实应用场景中的对象产生的具有经度、纬度、时间三个特征、称为时空三维特征的数据,这三个特征字段不能存在任何缺失;2)数据预处理,将所有时空三维特征的数据看作时空三维坐标系中的点,采用PCA算法将该坐标系的坐标轴进行旋转,得到数据在新坐标系中的坐标;3)索引计算,根据每个时空三维特征的数据的新坐标计算哈希值,并根据时空三维特征的数据分布情况调整哈希计算过程的参数;4)索引建立,为三级索引分别建立三张表,第三级索引的表存储指向时空三维特征的数据的指针,其余表存储指向下一级索引的指针。

    一种基于多视图的图神经网络的重要节点识别方法

    公开(公告)号:CN114417063A

    公开(公告)日:2022-04-29

    申请号:CN202110664305.2

    申请日:2021-06-16

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于多视图的图神经网络的重要节点识别方法,从社交平台上获取用户信息;根据用户信息将所有用户表示为节点,用户之间的关系表示为连边,用户的相关属性表示为特征,建立网络图结构;扩展为多视图,从不同角度描述数据,在不同视图上使用图神经网络的方法得到节点的嵌入;利用高阶的拓扑结构矩阵表示节点之间的关系,使用注意力的方法融合多视图信息,得到节点最终的表示,预测节点的重要性,得到端到端训练模型,识别出重要的节点;本发明不仅能够提高模型的表达能力,同时能够泛化到没有明显图结构的数据上,提取新的关系,建立图结构,利用图神经网络模型,提高网络中重要节点识别的性能。

    一种基于噪声标签学习的众包获取标签数据清洗方法

    公开(公告)号:CN113361201A

    公开(公告)日:2021-09-07

    申请号:CN202110645466.7

    申请日:2021-06-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于噪声标签学习的众包获取标签数据清洗方法,在模型热启动阶段,使用带有噪声的标签数据初步训练深度模型;在噪声分离阶段,通过模型对训练数据进行预测,计算噪声标签与预测类别间的损失,采用高斯混合模型拟合损失的分布,得到各个数据在属于均值较小子分布的概率,依据该概率的大小将数据分为纯净数据和噪声数据两部分;在重新训练阶段,使用有更大概率为纯净数据的一部分重新训练模型;最后根据深度模型中数据损失的大小进行噪声清洗;本发明对众包获取的带噪声标签数据进行清洗,可大幅提高众包获取数据的质量;并且结合了深度学习模型的拟合能力,可以纠正特征与标签依赖关系复杂时的噪声标签。

    一种基于有监督情感文本和词向量的情感词典构建方法

    公开(公告)号:CN108647191B

    公开(公告)日:2021-06-25

    申请号:CN201810473308.6

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 本发明提出一种基于有监督情感文本和词向量的情感词典构建方法,包括数据处理阶段、词向量情感嵌入阶段、情感词典生成阶段共三个阶段。本方法使用神经网络生成词向量,将情感嵌入到词向量内部,挖掘词与词之间的内在联系,然后构建词关系图,使用标签传播算法传播情感标签,自动构建特定领域的情感词典。通过本发明解决了基于人工和基于知识库的方法所构造的情感词典在处理特定领域的情感分析任务时不准确的问题。

    一种基于社交网络的众包测试人员招募方法

    公开(公告)号:CN112418803A

    公开(公告)日:2021-02-26

    申请号:CN202011342832.3

    申请日:2020-11-25

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于社交网络的众包测试人员招募方法,包括任务分割、任务发布和传播、传播网络构建、收益分配四个阶段;首先将众测任务分割为单个测试者可以完成的小任务;然后将任务发布给众包测试平台,使得任务信息在社交网络中进行传播;其次采用邀请码技术来记录每个测试人员的上级,从而形成传播网络;最后在收益分配阶段,根据传播网络进行收益分配。本发明解决了传统众包测试中无法在短时间内招募到足够的测试人员的问题,为众测提供人员保障。本发明利用社交网络强大的人员招募能力,在短时间内为众测招募到足够的工作者,同时创建了灵活的收益分配方式,使得人员招募具有良好的激励性。

    一种众包测试报告的处理和分类方法

    公开(公告)号:CN112416780A

    公开(公告)日:2021-02-26

    申请号:CN202011336106.0

    申请日:2020-11-25

    Applicant: 南京大学

    Abstract: 本发明公开了一种众包测试报告的处理和分类方法,在众包平台下发布软件测试任务,待工人测试完成后收集报告;从获得的数据中提取出Word Embedding、TF‑IDF和Metadata三个维度的特征;使用双向长短时记忆网络获得各个特征的全局编码表示,再根据特征的全局编码表示得到各个特征的注意力权重,并通过注意力权重调整全局编码;分类阶段,根据分类器得到相应的分类结果。本发明解决了没有考虑词序的问题,同事提高了分类的精度。

    一种基于主题模型的多标签分类框架方法

    公开(公告)号:CN108763361A

    公开(公告)日:2018-11-06

    申请号:CN201810470714.7

    申请日:2018-05-17

    Applicant: 南京大学

    CPC classification number: G06F17/218

    Abstract: 本发明公开了一种基于主题模型的多标签分类框架方法,包括如下步骤:1)标签文档生成阶段:a提取训练集标签集合;b生成新文档;2)获取标签文档‑主题分布阶段:a更新模型参数;b训练主题模型;3)标签文档‑主题分布离散化阶段:a获取主题概率最值;b离散化主题;4)预测测试实例主题阶段:a生成主题为标签的数据集;b预测测试实例主题;5)预测测试实例标签阶段:a组合属性主题;b预测测试实例标签。本发明能以较少的复杂度考虑了标签之间的关系,有效提高多标签分类预测效果。

Patent Agency Ranking