一种用于对话生成的混合神经网络模型的构建方法

    公开(公告)号:CN107506823A

    公开(公告)日:2017-12-22

    申请号:CN201710725762.1

    申请日:2017-08-22

    Applicant: 南京大学

    Abstract: 本发明公开了一种用于对话生成的混合神经网络模型的构建方法,包括以下步骤:获取形式为对话语句对的数据集并构建词汇表;生成词嵌入表;初始化特定结构的卷积神经网络,生成对应输入语句的词汇推荐表,判断是否提供了真实输出,若有提供则训练本步中的卷积神经网络的参数;初始化特定结构的循环神经网络,使用上步输出,生成具有语序的词汇标识列表,判断是否提供了真实输出,若有提供则训练本步中的循环神经网络的参数;训练结果满足设定指标后,保存词汇表和词嵌入表,保存卷积神经网络和循环神经网络的参数,即为构建整个模型完毕。本发明解决现有的神经网络对话模型因词汇表长度过大导致的训练速度慢、准确率低、生成语句一般化等问题。

    一种分布式的子图枚举方法

    公开(公告)号:CN106991195A

    公开(公告)日:2017-07-28

    申请号:CN201710295982.5

    申请日:2017-04-28

    Applicant: 南京大学

    CPC classification number: G06F16/2237 G06F16/2246 G06F16/27

    Abstract: 本发明公开了一种分布式的子图枚举方法,包括以下步骤:第一步,根据输入的查询图生成一棵查询树,并将查询树分发到各个计算节点;第二步,根据查询树在输入的数据图上查询出部分匹配结果;第三步,根据部分匹配结果和查询树,完成子图匹配任务,生成匹配结果。其中第二步查询部分匹配结果在分布式图计算框架中完成,该步骤又分为以下两个子步骤:第一步,接收邻居顶点发送的部分匹配结果并进行连接操作生成新的部分匹配结果;第二步,将新的部分匹配结果发送给邻居节点。本发明在分布式环境中高效地完成了子图枚举计算任务,改善了现有的分布式子图枚举计算方法网络开销过大,性能较低等问题。

    一种全程化Web信息抽取集成方法

    公开(公告)号:CN104408101A

    公开(公告)日:2015-03-11

    申请号:CN201410663862.2

    申请日:2014-11-19

    Applicant: 南京大学

    CPC classification number: G06F16/951

    Abstract: 本发明涉及一种Web信息抽取集成方法,属于计算机技术领域。该方法包括网页浏览导航、网页数据抽取、数据集成处理步骤,能够应用于各种不同的Web信息采集和挖掘分析应用,具有网页自动浏览导航能力和抽取数据的集成处理能力,因此采用本发明后,可以满足人们从Web中挖掘有价值的数据信息、完成深度价值发现的愿望。

    一种基于分布存储和并行计算的电网数据质量检测方法

    公开(公告)号:CN104391903A

    公开(公告)日:2015-03-04

    申请号:CN201410647792.1

    申请日:2014-11-14

    CPC classification number: G06F17/30321 G06F17/30445 G06F17/30595

    Abstract: 本发明公开了一种基于分布存储和并行计算的电网数据质量检测方法,包括以下步骤:采用HBase存储原始数据记录;采用HBase对校验规则涉及到的字段建立查询索引;采用HBase对原始数据记录建立时间戳索引,以便支持增量数据质量校验和细时间粒度的数据质量校验;采用HDFS存储数据记录的辅助索引文件和操作日志文件,以便全量历史数据质量校验时能够快速加载校验数据,提升校验性能;采用基于MapReduce的校验规则并行化处理,通过规则并行化处理提升校验性能。本发明解决了现有的基于关系数据库系统的电网数据质量检测方法可扩展性差,校验延时大,系统性价比低的问题。

    一种通用的Web自动浏览导航方法

    公开(公告)号:CN104361093A

    公开(公告)日:2015-02-18

    申请号:CN201410665797.7

    申请日:2014-11-19

    CPC classification number: G06F17/30873

    Abstract: 本发明涉及一种通用的Web自动浏览导航方法,按如下步骤进行:S1、建立Web自动浏览导航的页面交互模型,所述页面交互模型包括导航链接对象和导航链接调用,所述导航链接对象包括导航链接ID、至少一个导航控件描述和一个目标页面描述;所述导航链接调用包括调用导航链接ID和至少一个导航动作描述,所述调用导航链接ID与导航链接对象中的导航链接ID对应;S2、根据页面交互模型录制用户在Web页面的动作,采集与页面交互模型中匹配的信息形成页面交互规则;S3、自动回放并执行页面交互规则,模拟用户与Web页面的交互操作。本发明完成网页的自动化访问和获取,灵活性强、定位准确且复杂度低、通用性好。

    一种基于小样本半监督学习的网页数据抽取方法

    公开(公告)号:CN103514292A

    公开(公告)日:2014-01-15

    申请号:CN201310465730.4

    申请日:2013-10-09

    Applicant: 南京大学

    CPC classification number: G06F17/2282 G06F17/2765

    Abstract: 本发明公开了一种基于小样本半监督学习的网页数据抽取方法,包括如下步骤:针对来自同一网页模板的相似性网页,选取一组样本网页,由用户手工选择并标注出需要抽取的数据项,称为标注数据项;根据标注数据项在DOM树上所对应的节点,称为标注节点,根据标注数据项在对应DOM树上的不同特征,构造一组关于该标注节点的初始候选特征集合;利用半监督式学习方法,确定初始候选特征集合中的最小关联性特征,推导出对该数据项泛化的抽取规则;对一个网页上拟抽取的每个数据项都进行规则推导,得到该网页上关于这组数据项的抽取规则;将抽取规则作用于相似性网页,抽取出一批数据。本发明能完成网页数据抽取规则的生成和网页数据的自动化抽取处理。

    小样本自动化Web文本数据抽取模板生成与抽取方法

    公开(公告)号:CN102929930A

    公开(公告)日:2013-02-13

    申请号:CN201210357757.7

    申请日:2012-09-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于小样本的自动化Web文本数据抽取模板生成与抽取方法,包括如下步骤:选取一组文本数据样本,该文本数据样本包括多条文本记录;确定比对的单元:利用分隔符切分所述文本记录,使得所述文本记录成为分隔符和单词间隔的序列,该序列称为原始文本序列;在所述原始文本序列中找到一个与其它原始文本序列相似度最高的序列,称为核心序列;将每条原始文本序列以所述核心序列为标准,逐一对齐到一起,形成一组由多个对齐的数据栏衔接而成的对齐文本序列;对每个数据栏计算信息熵,用信息熵识别出该数据栏是模板字段栏或数据字段栏,由此得出模板;利用所述模板完成文本数据的抽取。本发明能自动完成细粒度的文本数据的抽取处理。

    一种面向服务器无感知的数据传输成本优化方法

    公开(公告)号:CN114996228B

    公开(公告)日:2025-01-03

    申请号:CN202210617619.1

    申请日:2022-06-01

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向服务器无感知(Serverless)的数据传输成本优化方法,包括如下步骤:测试分析服务器无感知环境的带宽、云函数的计算能力以及计费模式;建立传输时间与传输成本预测模型;用户提交传输任务,在传输任务中指定传输的地址以及执行的时间约束;生成采样任务对新文件进行特征采样,然后利用压缩性能预测模型预测文件的压缩率信息;系统根据任务描述选择传输成本最低且满足时间约束的传输参数;系统根据任务描述以及传输参数,利用服务器无感知计算资源进行实际传输;系统收集执行结果,并更新传输时间预测模型以及压缩性能预测模型。本发明能够保障传输任务在规定时间内完成的前提下,以最低的成本完成传输任务。

    一种融合系统语义的大数据系统参数自动优化方法

    公开(公告)号:CN113204539B

    公开(公告)日:2023-08-22

    申请号:CN202110516717.1

    申请日:2021-05-12

    Applicant: 南京大学

    Abstract: 本发明公开了一种融合系统语义的大数据系统参数自动优化方法,包括如下步骤:对系统运行作业和数据集进行特征提取;学习历史作业和数据集的大数据系统参数调优日志,形成参数预测模型;根据作业和数据集特征,预测较优的参数配置;从预测参数配置(较优)开始,配置系统参数并执行作业;在作业执行过程或执行结束后进行多维度性能分析;根据分析结果进行遗传搜索,得到更优参数;根据系统语义判断参数配置的合理性,实现参数搜索过程中的剪枝优化。本发明在多种大数据应用场景下均实现了大数据系统参数自动优化,提高大数据计算作业性能,解决现有技术不能同时兼顾参数推荐精准度和参数搜索效率的问题。

    一种基于Spark的大规模分布式DataFrame的查询方法

    公开(公告)号:CN110046176B

    公开(公告)日:2023-03-31

    申请号:CN201910347850.1

    申请日:2019-04-28

    Applicant: 南京大学

    Inventor: 顾荣 黄宜华 施军

    Abstract: 本发明公开了一种基于Spark的大规模分布式DataFrame的查询方法,包括以下步骤:采用了基于分布式计算执行引擎Spark的系统框架,以DataFrame作为编程模型,Python作为编程语言;在该分布式系统中,通过封装Spark原生DataFrame的已有查询接口,消除了与主流单机DataFrame计算库Pandas的API的不兼容性;构建轻量级全局索引,针对不同情况提供多种分布式DataFrame查询的功能;构建局部索引和辅助索引,提高了查询的性能。本发明解决了现有单机平台DataFrame可扩展性不好,无法处理大规模数据,以及现有的大数据处理平台分布式DataFrame查询接口不丰富,易用性差,性能低的问题。

Patent Agency Ranking