-
公开(公告)号:CN115203203A
公开(公告)日:2022-10-18
申请号:CN202210812128.2
申请日:2022-07-11
Applicant: 南京大学
IPC: G06F16/22 , G06F16/245 , G06F3/06
Abstract: 本发明公开了一种基于热点数据上流的云平台键值存储数据编排方法。该方法首先定义了一个实时跟踪时间窗口中键值数据的近似数据结构;然后,通过该数据结构得以实时获取键值数据最新的访问频次和时刻;随后,根据数据访问频次和时刻信息得到数据热度模型,从而实时感知键值数据的热度;紧接着,统计出各个热度的数据量,形成数据热度表,依据数据热度表能够得到每个数据的热度排名;最后,根据数据热度表对云平台键值存储数据进行数据编排,实现数据的自动预热。本发明可以从键值数据云平台中的数据访问模式出发,跟踪键值数据的访问频次和时间节点,从而构建一个键值数据热度表,以实现键值存储数据的自动预热。
-
公开(公告)号:CN115185683A
公开(公告)日:2022-10-14
申请号:CN202210785420.X
申请日:2022-07-04
Applicant: 南京大学
Abstract: 本发明公开了一种基于动态优化模型的云平台流处理资源分配方法。该方法首先定义流处理任务的算子性能模型;然后,引入通信开销因子并修正上述算子性能模型;之后,感知用户提交的流处理任务,并诊断其性能状态;随后,以默认并行度做参数预设,得到初步的模型拟合曲线,并持续拟合优化通信开销模型,使模型与性能指标的误差尽量小;紧接着,对算子性能模型进行更新,若需要伸缩,则进行任务重配置;最后,重复上述过程直到流处理作业完成。本发明可以考虑流处理算子在复杂任务中的通信开销,并构建一个非线性的算子性能模型,以实现云平台流处理系统资源的及时、合理分配。
-
公开(公告)号:CN114996228A
公开(公告)日:2022-09-02
申请号:CN202210617619.1
申请日:2022-06-01
Applicant: 南京大学
IPC: G06F16/174 , H04L69/04
Abstract: 本发明公开了一种面向服务器无感知(Serverless)的数据传输成本优化方法,包括如下步骤:测试分析服务器无感知环境的带宽、云函数的计算能力以及计费模式;建立传输时间与传输成本预测模型;用户提交传输任务,在传输任务中指定传输的地址以及执行的时间约束;生成采样任务对新文件进行特征采样,然后利用压缩性能预测模型预测文件的压缩率信息;系统根据任务描述选择传输成本最低且满足时间约束的传输参数;系统根据任务描述以及传输参数,利用服务器无感知计算资源进行实际传输;系统收集执行结果,并更新传输时间预测模型以及压缩性能预测模型。本发明能够保障传输任务在规定时间内完成的前提下,以最低的成本完成传输任务。
-
公开(公告)号:CN113297293A
公开(公告)日:2021-08-24
申请号:CN202110555440.3
申请日:2021-05-21
Applicant: 南京大学
IPC: G06F16/2458 , G06N3/00 , G06N20/00
Abstract: 本发明公开了一种基于约束优化进化算法的自动化特征工程方法,首先将自动化特征工程问题建模为特征变换函数序列搜索问题,然后将特征变换函数编码为染色体,并根据特征类型对候选特征变换函数的编码空间进行约束,最后利用进化算法迭代搜索出最优的特征变换函数序列。本发明相比于以前方法,不仅能够根据特征类型选择特征变换函数,而且也支持特征变换函数之间的嵌套。另外,也能够取得更好的机器学习模型预测性能。
-
公开(公告)号:CN113190656A
公开(公告)日:2021-07-30
申请号:CN202110511025.8
申请日:2021-05-11
Applicant: 南京大学
IPC: G06F16/33 , G06F16/35 , G06F40/216 , G06F40/242 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多标注框架与融合特征的中文命名实体抽取方法,该首先基于预训练语言模型对汉字进行编码。然后,通过词典匹配为每个汉字引入词信息与分词标记信息,构建词典特征。在此基础上,根据汉字在匹配词中的含义,使用汉语拼音软件对汉字进行注音,构建拼音特征。接着,基于点乘注意力机制融合词典特征与拼音特征到汉字编码中,得到结合词典特征与拼音特征的汉字语义编码,提升对于中文命名实体边界的识别能力。最后,结合序列标注与指标标注的优点,利用多任务学习模型联合学习两种标注任务,提高中文命名实体抽取的准确率。
-
公开(公告)号:CN112416585A
公开(公告)日:2021-02-26
申请号:CN202011310749.8
申请日:2020-11-20
Applicant: 南京大学
Abstract: 本发明公开了一种面向深度学习的GPU资源管理与智能化调度方法,包括以下步骤:第一步,用户通过前端接口组件提交深度学习作业,包括待执行的深度学习程序与训练数据集;第二步,在进行验证后将作业添加到调度器对应的待调度队列;第三步,为该作业启动独立的作业管理器;第四步,向资源管理器申请作业运行需要的计算资源;第五步,对待调度作业进行特征建模与分析;第六步,根据作业特征与集群计算节点特征生成资源调度方案;第七步,按照调度方案将作业调度到指定计算节点上;第八步,作业执行器启动容器并执行深度学习程序。本发明可解决现有集群资源调度方法在深度学习场景下GPU资源利用率低、作业执行性能差的问题。
-
公开(公告)号:CN106991195B
公开(公告)日:2020-08-11
申请号:CN201710295982.5
申请日:2017-04-28
Applicant: 南京大学
Abstract: 本发明公开了一种分布式的子图枚举方法,包括以下步骤:第一步,根据输入的查询图生成一棵查询树,并将查询树分发到各个计算节点;第二步,根据查询树在输入的数据图上查询出部分匹配结果;第三步,根据部分匹配结果和查询树,完成子图匹配任务,生成匹配结果。其中第二步查询部分匹配结果在分布式图计算框架中完成,该步骤又分为以下两个子步骤:第一步,接收邻居顶点发送的部分匹配结果并进行连接操作生成新的部分匹配结果;第二步,将新的部分匹配结果发送给邻居节点。本发明在分布式环境中高效地完成了子图枚举计算任务,改善了现有的分布式子图枚举计算方法网络开销过大,性能较低等问题。
-
公开(公告)号:CN107015868B
公开(公告)日:2020-05-01
申请号:CN201710232797.1
申请日:2017-04-11
Applicant: 南京大学
IPC: G06F9/50
Abstract: 本发明公开了一种通用后缀树的分布式并行构建方法,包括以下步骤:第一步,整合输入序列并将其平均分配给每个计算节点;第二步,并行地统计子序列频数,确定所有的子树构建任务;第三步,将这些子树构建任务按规模尽量均匀地分配给不同的计算节点;第四步,分轮批量构建所有子树。每一轮批量构建可以分为以下三步:第一步,并行扫描输入以定位本轮构建任务需要的后缀并分别排序,将排序结果汇总至负责构建任务的计算节点;第二步,多路归并生成全局有序的后缀排序结果;第三步,利用排序结果生成对应的后缀子树。本发明可高效地并行构建通用后缀树,解决现有通用后缀树构建方法过于依赖I/O或主存容量、通用性不足、应对大规模输入困难等问题。
-
公开(公告)号:CN110046176A
公开(公告)日:2019-07-23
申请号:CN201910347850.1
申请日:2019-04-28
Applicant: 南京大学
IPC: G06F16/2455 , G06F16/27 , G06F16/22
Abstract: 本发明公开了一种基于Spark的大规模分布式DataFrame的查询方法,包括以下步骤:采用了基于分布式计算执行引擎Spark的系统框架,以DataFrame作为编程模型,Python作为编程语言;在该分布式系统中,通过封装Spark原生DataFrame的已有查询接口,消除了与主流单机DataFrame计算库Pandas的API的不兼容性;构建轻量级全局索引,针对不同情况提供多种分布式DataFrame查询的功能;构建局部索引和辅助索引,提高了查询的性能。本发明解决了现有单机平台DataFrame可扩展性不好,无法处理大规模数据,以及现有的大数据处理平台分布式DataFrame查询接口不丰富,易用性差,性能低的问题。
-
公开(公告)号:CN106055543B
公开(公告)日:2019-04-09
申请号:CN201610346396.4
申请日:2016-05-23
Applicant: 南京大学
IPC: G06F17/28 , G06F16/182 , G06K9/62
Abstract: 本发明公开了一种基于Spark的大规模短语翻译模型的训练方法,包括以下步骤:首先采取Spark分布式地调用单机多线程词对齐训练工具MGIZA++的模式,在大规模平行语料库中使用期望最大化算法进行词对齐模型的迭代训练,生成带有词对齐信息的平行语料库;接着使用上一步生成的带有词对齐信息的双语语料数据,在Spark平台上实现了短语翻译模型的并行化训练,最终得到短语表。本发明提出了一种基于Spark的大规模翻译模型的训练方法,解决了现有翻译系统在翻译模型训练中耗时较长、数据扩展性不佳的问题。
-
-
-
-
-
-
-
-
-