-
公开(公告)号:CN104820775A
公开(公告)日:2015-08-05
申请号:CN201510183745.0
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F19/00
Abstract: 一种中药方剂核心药物的发现方法,由改进聚类算法和加权TF-IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;加权TF-IDF算法用于计算药物的权重,发明的权重计算公式结合聚类结果、药物顺序重要度、TF-IDF算法三部分;算法具有较高的准确性。
-
公开(公告)号:CN104820945B
公开(公告)日:2018-06-22
申请号:CN201510186252.2
申请日:2015-04-17
Applicant: 南京大学
IPC: G06Q50/00
Abstract: 基于复杂网络社团发现算法的信息传播最大化方法,包括如下步骤:1)复杂网络生成阶段:预处理从在线社会网络上爬取到的数据变为有向带权图;模型训练阶段:a)利用社团发现算法对复杂网络进行社团发现。b)为每一个社团,输出对应的子图。c)为每一个子图进行不同种子节点选取实验。d)利用所产生数据进行训练模型,并把得到的模型保存到指定区域以待使用。2)种子节点选取阶段:a)要进行挖掘的原始复杂网络分割为不同的社团,并生成对应子图。b)导入模型训练阶段训练好的预测。c)利用预测模型计算出每个子图应分配到几个种子节点进行挖掘。复杂网络数据中选取最具传播能力节点时的时间效率。具有选取结果优,数据处理速度快等优点。
-
公开(公告)号:CN108710672B
公开(公告)日:2020-04-14
申请号:CN201810472102.1
申请日:2018-05-17
Applicant: 南京大学
IPC: G06F16/35 , G06F16/9535 , G06F16/951 , G06K9/62
Abstract: 一种基于增量贝叶斯算法的主题爬虫方法,使用增量学习思想训练贝叶斯分类器的步骤,基于增量贝叶斯算法进行在线主题爬虫的步骤:输入初始训练集和增量训练集;对初始训练集和增量训练集进行分词等预处理;根据初始训练集和朴素贝叶斯原理训练出初始分类器,针对增量训练集中的数据,使用初始分类器对样本进行分类,根据分类结果进行分类模型的更新;初始化优先级队列、已访问链接集合、增量贝叶斯分类器,并将初始网页链接加入到优先级队列中;根据网页链接是否含有主题关键词,如果含有,则对增量贝叶斯分类模型进行更新。每次选择优先级队列中优先级最高的网页进行网页下载,重复上述步骤直到满足条件。
-
公开(公告)号:CN108710672A
公开(公告)日:2018-10-26
申请号:CN201810472102.1
申请日:2018-05-17
Applicant: 南京大学
Abstract: 一种基于增量贝叶斯算法的主题爬虫方法,使用增量学习思想训练贝叶斯分类器的步骤,基于增量贝叶斯算法进行在线主题爬虫的步骤:输入初始训练集和增量训练集;对初始训练集和增量训练集进行分词等预处理;根据初始训练集和朴素贝叶斯原理训练出初始分类器,针对增量训练集中的数据,使用初始分类器对样本进行分类,根据分类结果进行分类模型的更新;初始化优先级队列、已访问链接集合、增量贝叶斯分类器,并将初始网页链接加入到优先级队列中;根据网页链接是否含有主题关键词,如果含有,则对增量贝叶斯分类模型进行更新。每次选择优先级队列中优先级最高的网页进行网页下载,重复上述步骤直到满足条件。
-
公开(公告)号:CN104794192A
公开(公告)日:2015-07-22
申请号:CN201510185479.5
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F17/30
Abstract: 一种基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,包括如下步骤:统计检测阶段:a)根据应用场景确定关键特征集合;b)对于离散特征,用滑动窗口分布直方图建模,对于连续特征用指数平滑建模;c)周期性输入各个关键特征的观测值;d)结束。集成学习训练阶段:a)利用已经标记的正常和异常样例,组成训练数据集合;b)训练随机森林分类模型;和集成学习分类阶段;本发明为包含时序特性和复杂行为模式的异常检测问题提供了一个通用框架,适合在线常驻检测,集成学习阶段使用随机森林模型具有可并行化、泛化能力强的特点,该方法可运用于如电信行业业务违规检测、金融行业信用卡欺诈检测、网络攻击检测等多个场景。
-
公开(公告)号:CN106022936B
公开(公告)日:2020-03-20
申请号:CN201610353585.4
申请日:2016-05-25
Applicant: 南京大学
IPC: G06Q50/00
Abstract: 本发明提供一种适用论文合作网络的基于社团结构的影响最大化算法(COMAX算法),包括如下步骤:1)社团发现阶段a构建论文合作网络图;b合并局部社团;c构建新的网络图;d结束;2)种子节点选取阶段a计算每个社团的影响力;b选择影响力最大社团中对应的节点;c结束。本发明的基于社团结构的影响最大化算法为论文合作网络的影响最大化问题提供了新的解决方案,结果表明,在ICM模型上,我们提出的COMAX算法在影响覆盖范围上与贪心算法接近,而且时间效率非常好。
-
公开(公告)号:CN104820680B
公开(公告)日:2018-04-06
申请号:CN201510183709.4
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F17/30
Abstract: 一种通用型分布式爬虫调度系统,包括控制器和爬虫器,控制器包含显示模块和调度模块,其中显示模块用于查看各种任务进展信息、日志以及触发对爬虫器的控制,调度模块包含通信区、维持区、数据保持区、数据缓存区;爬虫器包含爬取模块和调度模块,其中爬取模块实现具体的爬虫功能;调度模块包含通信区、维持区、数据保持区、数据缓存区;调度模块中的通信区之间采用Socket长连接异步通信方式完成互联;针对大数据时代获取数据效率低,存在丢失等问题,提出普适型、通用型的分布式爬虫系统框架,在保证爬取过程高速、有效、准确的同时兼容多样化的爬取策略。
-
公开(公告)号:CN106027414A
公开(公告)日:2016-10-12
申请号:CN201610353612.8
申请日:2016-05-25
Applicant: 南京大学
IPC: H04L12/861 , H04L29/08
CPC classification number: H04L49/9042 , H04L67/1097
Abstract: 本发明提供一种面向HDFS的网络报文并行读取方法,包括网络数据捕获与pcap报文解析两个阶段。本方法依托Hadoop平台的分布式框架MapReduce与分布式文件系统HDFS,将捕获的网络数据包写入HDFS,并通过本发明实现的二进制pcap流解析方法将pcap报文并行的解析出来,形成key‑value对然后交由MapReduce框架进行分析处理。通过本发明中的方法大大提高了HDFS下pcap格式文件的并行读取能力,进而提高了后续网络数据包的并行分析与处理效率。
-
公开(公告)号:CN104820680A
公开(公告)日:2015-08-05
申请号:CN201510183709.4
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F17/30
Abstract: 一种通用型分布式爬虫调度系统,包括控制器和爬虫器,控制器包含显示模块和调度模块,其中显示模块用于查看各种任务进展信息、日志以及触发对爬虫器的控制,调度模块包含通信区、维持区、数据保持区、数据缓存区;爬虫器包含爬取模块和调度模块,其中爬取模块实现具体的爬虫功能;调度模块包含通信区、维持区、数据保持区、数据缓存区;调度模块中的通信区之间采用Socket长连接异步通信方式完成互联;针对大数据时代获取数据效率低,存在丢失等问题,提出普适型、通用型的分布式爬虫系统框架,在保证爬取过程高速、有效、准确的同时兼容多样化的爬取策略。
-
公开(公告)号:CN104794192B
公开(公告)日:2018-06-08
申请号:CN201510185479.5
申请日:2015-04-17
Applicant: 南京大学
IPC: G06F17/30
Abstract: 一种基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,包括如下步骤:统计检测阶段:a)根据应用场景确定关键特征集合;b)对于离散特征,用滑动窗口分布直方图建模,对于连续特征用指数平滑建模;c)周期性输入各个关键特征的观测值;d)结束。集成学习训练阶段:a)利用已经标记的正常和异常样例,组成训练数据集合;b)训练随机森林分类模型;和集成学习分类阶段;本发明为包含时序特性和复杂行为模式的异常检测问题提供了一个通用框架,适合在线常驻检测,集成学习阶段使用随机森林模型具有可并行化、泛化能力强的特点,该方法可运用于如电信行业业务违规检测、金融行业信用卡欺诈检测、网络攻击检测等多个场景。
-
-
-
-
-
-
-
-
-