一种通用主题嵌入模型联合训练方法

    公开(公告)号:CN108549718B

    公开(公告)日:2019-10-18

    申请号:CN201810368425.6

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种通用的主题嵌入模型联合训练方法,包括以下步骤:第一步对输入的原始文档语料进行预处理得到目标文本;第二步对目标文本构建词汇表;第三步初始化网络结构,对模型的参数矩阵进行初始化,并构建负采样表;第四步对主题嵌入模型联合建模、分多次迭代训练模型。每一次迭代过程分为以下三步:第一步,采用期望最大化算法训练主题模型部分;第二步,采用随机梯度下降算法训练嵌入模型部分;第三步,采用完全梯度下降算法训练正则化项部分。本发明可提供一种通用的方式将主题模型与嵌入模型联合训练,解决现有的模型组合方式过于依赖特有模型、通用性不足,很难同时提升两种模型等问题。

    一种阈值自适应的集合相似连接方法

    公开(公告)号:CN108573052B

    公开(公告)日:2019-09-10

    申请号:CN201810368421.8

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种阈值自适应的集合相似连接方法,对于保存在数据库中的由集合记录构成的数据集R和S,以及相似度阈值τ,共包含六个步骤,其中前两个步骤属于数据预处理阶段,后四个步骤属于相似连接阶段:第一步,对R和S中所有的集合元素按照出现频率重编号;第二步,计算S集合元素的倒排索引I并将I存入数据库;第三步,对于R中的每条记录r,利用过滤器得到S中与r的相似度系数不小于阈值τ的候选记录集;第四步和第五步分别计算全量计算和直接验证两种模式的数据库获取开销;第六步选择开销更小的方式计算r的相似记录对。本发明可在广阈值范围内均高效的进行集合相似连接计算,解决现有技术不能同时兼顾低阈值和高阈值情况的问题。

    一种基于强化学习的自动化机器学习方法

    公开(公告)号:CN110110858A

    公开(公告)日:2019-08-09

    申请号:CN201910359211.7

    申请日:2019-04-30

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于强化学习的自动化机器学习方法,包括以下步骤:使用统一的API接口,屏蔽不同的机器学习算法库之间的异构性,以Python作为编程语言,在Python语言中调用不同机器学习算法库中的算法;将自动化机器学习问题建模为强化学习问题,对候选机器学习算法进行状态空间划分,确定状态间的转移关系,并采用Q-Learning算法完成搜索机器学习流水线的过程;对数据集进行元特征提取,搜索最相似数据集,并利用所述最相似数据集上的运行信息来加速自动化机器学习的收敛过程。本发明解决了现有的自动化机器学习系统收敛速度慢、可扩展性差以及最终预测性能达不到预期的问题。

    一种面向分布式文件系统的统一命名空间管理的方法

    公开(公告)号:CN108595616A

    公开(公告)日:2018-09-28

    申请号:CN201810366864.3

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向分布式文件系统的统一命名空间管理的方法,包括以下步骤:将第一挂载表放置在统一命名空间服务端,统一命名空间客户端启动时从服务端获取挂载表,服务端挂载表支持挂载表项的动态添加和删除,客户端通过心跳线程定期从服务端获取更新的挂载表。本发明解决已有系统中挂载表分散难以管理,引入统一命名空间后元数据访问性能下降严重等问题。

    一种全程化Web信息抽取集成方法

    公开(公告)号:CN104408101B

    公开(公告)日:2018-01-09

    申请号:CN201410663862.2

    申请日:2014-11-19

    Applicant: 南京大学

    Abstract: 本发明涉及一种Web信息抽取集成方法,属于计算机技术领域。该方法包括网页浏览导航、网页数据抽取、数据集成处理步骤,能够应用于各种不同的Web信息采集和挖掘分析应用,具有网页自动浏览导航能力和抽取数据的集成处理能力,因此采用本发明后,可以满足人们从Web中挖掘有价值的数据信息、完成深度价值发现的愿望。

    基于双语词嵌入技术的并行化词对齐方法

    公开(公告)号:CN107491444A

    公开(公告)日:2017-12-19

    申请号:CN201710714527.4

    申请日:2017-08-18

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于双语词嵌入技术的并行化词对齐方法,在Spark平台上利用MPS-Neg双语词嵌入技术获得双语词向量表,由双语词向量表获得词对齐模型,进而进行分布式词对齐任务,利用词对齐结果和MPS-Neg更新双语词向量表,重复以上词对齐和双语词向量表更新操作直至指定迭代次数。本发明解决了现有词对齐方法不能很好适应大规模语料词对齐任务的问题。

    一种通用后缀树的分布式并行构建方法

    公开(公告)号:CN107015868A

    公开(公告)日:2017-08-04

    申请号:CN201710232797.1

    申请日:2017-04-11

    Applicant: 南京大学

    Abstract: 本发明公开了一种通用后缀树的分布式并行构建方法,包括以下步骤:第一步,整合输入序列并将其平均分配给每个计算节点;第二步,并行地统计子序列频数,确定所有的子树构建任务;第三步,将这些子树构建任务按规模尽量均匀地分配给不同的计算节点;第四步,分轮批量构建所有子树。每一轮批量构建可以分为以下三步:第一步,并行扫描输入以定位本轮构建任务需要的后缀并分别排序,将排序结果汇总至负责构建任务的计算节点;第二步,多路归并生成全局有序的后缀排序结果;第三步,利用排序结果生成对应的后缀子树。本发明可高效地并行构建通用后缀树,解决现有通用后缀树构建方法过于依赖I/O或主存容量、通用性不足、应对大规模输入困难等问题。

    一种基于Flink的大规模矩阵并行化的计算方法

    公开(公告)号:CN105608056A

    公开(公告)日:2016-05-25

    申请号:CN201510764595.2

    申请日:2015-11-09

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于Flink的大规模矩阵并行化的计算方法,主要包括以下步骤:利用FlinkDataSet对大规模矩阵数据进行存储,在单个计算机上对矩阵进行计算时采用BLAS对矩阵计算进行加速;设计并实现了矩阵的相加、相减等一系列矩阵操作;设计了并行化的方案并结合Flink和算法的特点设计了三种优化手段提升不同形状的矩阵相乘运算的性能,包括:基于方块划分方式的矩阵分块相乘、基于CARMA划分方式的矩阵分块相乘和基于广播方式的矩阵分块相乘。本发明解决了传统单个计算机情形下大规模矩阵计算开销大甚至无法计算的问题,具有很好地扩展性。

    基于Spark的分布式稠密矩阵求逆并行化运算方法

    公开(公告)号:CN105373517A

    公开(公告)日:2016-03-02

    申请号:CN201510762086.6

    申请日:2015-11-09

    Applicant: 南京大学

    CPC classification number: G06F17/16 G06F9/3818 G06F17/30194

    Abstract: 本发明公开了一种基于Spark的分布式稠密矩阵求逆并行化运算方法,包括以下步骤:首先在迭代过程中对输入矩阵实施并行化的LU分解运算;接下来,以LU分解得到的分布式上三角矩阵以及分布式下三角矩阵为基础,使用递归算法求取分布式上(下)三角矩阵的逆矩阵;最后,以上面两步得到的置换矩阵和三角矩阵的逆矩阵为基础,实施分布式矩阵乘法,得到原任意输入矩阵的逆矩阵。本发明能够处理维数很大的稠密矩阵,同时拥有较高的运算效率、较好的容错性与可扩展性。

    一种融合对比式和生成式的自监督图结构学习方法

    公开(公告)号:CN118504649A

    公开(公告)日:2024-08-16

    申请号:CN202410510577.0

    申请日:2024-04-26

    Applicant: 南京大学

    Abstract: 本发明公开了一种融合对比式和生成式的自监督图结构学习方法,首先为结构完全缺失的图数据构造初始图结构,然后分别对节点属性和边进行掩码以构造自监督任务,设计共享的编码器模型构建对比式自监督任务,设计不同的解码器模型构建生成式自监督任务,最后将对比式任务与生成式任务的损失值加权得到模型总损失值并利用梯度下降法优化模型参数,训练结束后,根据编码器得到的图节点表征使用K近邻算法构造最优图结构。本发明方法相比于以前方法,不仅能够不依赖于数据标签进行学习,而且具备优秀的计算效率。另外,学习到的最优图结构能够有效提高图机器学习模型的预测性能。

Patent Agency Ranking