利用外部信息的神经机器翻译系统及翻译系统的训练方法

    公开(公告)号:CN108845994A

    公开(公告)日:2018-11-20

    申请号:CN201810582125.8

    申请日:2018-06-07

    Applicant: 南京大学

    Abstract: 本公开涉及利用外部信息的神经机器翻译系统及翻译系统的训练方法。利用外部信息的神经机器翻译系统包括:源端编码器神经网络,用于接收源端源语言的文字序列作为源端输入;外部信息编码器神经网络,用于接收目标语言的文字序列作为外部信息输入;目标端解码器神经网络,用于根据源端输入和外部信息输入,计算结合外部信息的翻译预测概率分布,根据结合外部信息的翻译预测概率分布生成源端源语言文字序列的译文作为目标端输出。本公开提供的翻译系统,在翻译过程中输入外部信息,为翻译提供参考,有效提高了翻译效率;本公开提供的翻译系统的训练方法,能够适应考虑外部信息的神经机器翻译系统。

    一种利用多样化文本特征进行文本分类的方法

    公开(公告)号:CN108664633A

    公开(公告)日:2018-10-16

    申请号:CN201810460235.7

    申请日:2018-05-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种利用多样化文本特征进行文本分类的方法,包括以下步骤:使用多维度文本表示算法,生成多组不同的文本特征表示,即纵向生成多维度文本特征表示;使用多种不同的文本表示算法,生成多组不同的文本特征表示,即横向生成多维度文本特征表示;将每个样本不同的特征表示向量进行组合,作为样本新的特征向量,进而得到数据集新的特征表示。将本发明对现有的文本表示算法进行了改进,提出了利用更多的维度较低且差异较大的文本表示来挖掘文本不同的内部结构,增强文本表示的能力,可以在极大程度上降低文本特征维度的同时,提升文本分类等任务的效果。

    一种基于状态转移与神经网络的汉语组块分析方法

    公开(公告)号:CN106021227B

    公开(公告)日:2018-08-21

    申请号:CN201610324281.5

    申请日:2016-05-16

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于状态转移与神经网络的汉语组块分析方法,包括:将组块分析任务转换成序列化标注任务,使用基于状态转移的框架对句子进行标注,在标注的过程中使用前向神经网络来对每个状态将要进行的转移操作进行打分,并将利用双向长短记忆神经网络模型学习到的词以及词性标注的分布式表示特征作为标注模型的附加信息特征,从而提高组块分析的精确度。对比其它汉语组块分析技术,该汉语组块分析方法使用的基于状态转移的框架可以更灵活地添加组块级别的特征,同时神经网络的使用可以自动学到特征之间的组合方式,双向长短记忆神经网络模型的利用引入了有用的附加信息特征,三者的结合有效提高了组块分析的准确度。

    基于新型神经网络的自然语言并列结构的自动识别方法

    公开(公告)号:CN105868181B

    公开(公告)日:2018-08-21

    申请号:CN201610250258.6

    申请日:2016-04-21

    Applicant: 南京大学

    Abstract: 本发明提出了基于新型神经网络的自然语言并列结构的自动识别方法,包括:先对待分析的句子进行句法分析处理,得到一个并列结构的候选集合,然后利用新型的神经网络学习器对候选集合中的并列结构进行打分,从而选出最佳的并列结构作为系统的最终输出。本方法综合考虑了并列结构的短语独立性和短语之间的相似性,提高了并列结构识别精度。对比现有的其他技术,本方法突出在能够自动识别出任意的并列结构,而其他技术只能识别出特定类型的并列结构,如只有名词组成的并列结构。本方法提出了一种更有效的并列结构识别方法,在实际应用中提高了识别质量。

    利用基于词上下文的字嵌入与神经网络的中文分词方法

    公开(公告)号:CN107168955A

    公开(公告)日:2017-09-15

    申请号:CN201710368867.6

    申请日:2017-05-23

    Applicant: 南京大学

    CPC classification number: G06F17/2775 G06F17/2785 G06N3/02

    Abstract: 本发明提出了一种利用基于词上下文的字嵌入与神经网络的中文分词方法,在大规模的自动切分数据上学习字嵌入,将学习得到的字嵌入作为神经网络分词模型的输入,可以有效帮助模型学习。具体步骤如下:根据字上下文以及词位标记在大规模自动切分数据上学习字嵌入,将字嵌入作为神经网络分词模型的输入,有效地提高了分词的性能。对比其它基于神经网络的中文分词技术,该方法采用了基于词上下文的字嵌入,有效地将词信息融合进了分词模型,成功的提高了分词任务的准确性。

    一种计算机中译英翻译中基于分词网的词对齐融合方法

    公开(公告)号:CN102193915A

    公开(公告)日:2011-09-21

    申请号:CN201110148692.0

    申请日:2011-06-03

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中译英翻译中基于分词网的汉英词对齐融合方法,包括以下步骤:步骤一,确定骨架对齐:用基于连接置信度的连接选择算法搜索选择最优的骨架连接,形成骨架对齐;步骤二,将选出骨架对齐投影到各个分词上,得到基于各种分词的词对齐。本发明对现有的基于单一分词的词对齐算法进行改善和提高,能同时提高了各个分词的词对齐质量和机器翻译质量。通过将多种分词下用于词对齐的特征融合起来,让最终的词对齐更加健壮,可以降低受分词错误或者双语分词不一致影响的词对齐错误数量。

    一种对图像描述的结果进行自动评估的方法

    公开(公告)号:CN114912512B

    公开(公告)日:2024-07-23

    申请号:CN202210392208.7

    申请日:2022-04-14

    Applicant: 南京大学

    Abstract: 本发明提供了一种对图像描述的结果进行自动评估的方法,包括:步骤1,分别抽取图像和文本的场景图;步骤2,利用多模态预训练模型CLIP对相关元素进行编码;步骤3,计算得到句子质量评价的最终分数。本发明基于场景图来辅助判断图像和文本之间的一致性,提高了无标注场景下质量评价的可信度;本发明使用CLIP模型对图像、文本、场景图进行编码,不仅确保了语义空间的一致性,大大提高了场景图相似度比较的准确性,还保证了编码能力的可更新性。

    一种预测DockerFile创建容器执行时间的方法

    公开(公告)号:CN116467040A

    公开(公告)日:2023-07-21

    申请号:CN202310234697.8

    申请日:2023-03-13

    Applicant: 南京大学

    Abstract: 本发明提出了一种预测DockerFile创建容器执行时间的方法,包括以下步骤:步骤1,构建DockerFile源代码数据集,其中包含源代码样本;步骤2,将所述数据集中的DockerFile源代码转化为抽象语法树路径;步骤3,构建预测基础镜像模型,使用抽象语法树路径对所述预测基础镜像模型进行预训练;步骤4,通过预训练的预测基础镜像模型提取源代码样本的特征向量,将所述特征向量与其他特征向量拼接,获取最终特征向量;步骤5,将最终特征向量输入机器学习模型即随机森林中,得到待预测目标即DockerFile创建容器执行时间的预测结果。

    一种基于强化学习的智能驾驶决策学习方法

    公开(公告)号:CN116306800A

    公开(公告)日:2023-06-23

    申请号:CN202211454693.2

    申请日:2022-11-21

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于强化学习的智能驾驶决策学习方法,本发明通过gate门的输出,对无关连续参数进行遮蔽,能减少训练的整体误差,整个模型考虑了不同参数之间的交互关系,首先由gate门输出离散参数,然后激活对应的连续参数网络,更加准确的增加了参数的相关程度,传统的探索方法使用随机探索,需要设置专门的探索参数,该模型直接根据门控网络输出的值进行探索,能够很好的兼顾探索和未来收益。本发明能够快速的输出混合参数,模型能够及时响应环境的变化,当模型的参数需要迁移时,只需要针对性的改变部分网络模型参数,无需对整个网络进行重新训练。

Patent Agency Ranking