一种混合逐点策略和成对策略的文本排序方法

    公开(公告)号:CN108717434B

    公开(公告)日:2020-07-31

    申请号:CN201810460253.5

    申请日:2018-05-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种混合逐点策略和成对策略的文本排序方法,涉及一种在对句子,句法树等样本排序的过程中更好地利用样本之间的差异信息的排序方法,包括:逐点排序阶段,成对排序阶段。逐点排序阶段对样本进行打分并做第一次排序,并筛选出得分较高的候选,在这些候选基础上,进一步对其进行成对排序阶段,其中成对策略排序采用了一种编码、参照生成、对比、再编码、打分的流程,在参照过程中设计了一种基于跨度的节点加权方法,一种跨度和注意力机制相结合的方法,最后根据样本的基础得分和逐点排序得分,成对排序阶段得分进行综合排序。

    机器翻译方法、装置及存储介质

    公开(公告)号:CN111310485A

    公开(公告)日:2020-06-19

    申请号:CN202010172133.2

    申请日:2020-03-12

    Applicant: 南京大学

    Abstract: 本公开涉及机器翻译领域,尤其涉及一种机器翻译方法、装置及存储介质。所述方法包括:根据待翻译的源端文本序列,调用编码器进行编码得到编码向量;根据编码向量,调用解码器进行解码得到中间结果;根据中间结果,通过总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布,翻译概率分布用于指示多个候选词各自对应的选取概率;根据源端文本序列中各个词语的翻译概率分布,生成源端文本序列对应的目标译文。本公开实施例通过在包括编码器和解码器的机器翻译模型中增加一层总结层的方式,避免了相关技术中使用对多头注意力做剪枝、得到的注意力作为拷贝的注意力的情况,在保证解码速度的同时,提高了机器翻译模型的翻译质量。

    一种自动生成小说文本情感曲线并预测推荐的方法

    公开(公告)号:CN107193969B

    公开(公告)日:2020-06-02

    申请号:CN201710377512.3

    申请日:2017-05-25

    Applicant: 南京大学

    Abstract: 本发明公开了一种自动生成小说文本情感曲线并预测推荐的方法,本发明的方法生成的情感曲线能更准确的反映文本情感变化状况;本发明开创性地利用小说文本的情感曲线之间的关系对小说的统计量进行预测,提供的下载量预测也具有更高的正相关性;本发明对有关小说文本的推荐也为相关推荐任务提供了一个全新的角度。主要步骤如下:对小说文本语料进行预处理后得到小说的单词列表,通过文本窗口依次算出情感分数汇聚成情感曲线;通过情感曲线计算出文本两两之间的动态时间规整距离矩阵;对动态时间规整距离矩阵使用改进的高斯过程给出下载量预测;按照动态时间规整距离大小给出相关的文本推荐。

    一种基于词预测的神经机器翻译方法

    公开(公告)号:CN107391501A

    公开(公告)日:2017-11-24

    申请号:CN201710812778.6

    申请日:2017-09-11

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于词预测的神经机器翻译方法,包括:在基于注意力机制的端到端神经机器翻译系统的训练过程中加入词预测机制。其分为两个方面,一是对源端即编码端加入词预测机制,二是在目标端即解码端加入词预测机制。对比现有的神经机器翻译系统,本方法可以充分利用到词的信息,在训练时强化源端以及目标端的能力,从而提高机器翻译系统的翻译质量,并且在翻译时,通过编码端词预测机制对翻译所需词表进行压缩,可以大大提高翻译的效率。在实际实验情况下,翻译质量和翻译效率都得到了大幅度的提升。

    一种计算机中采用剪枝方法改进的神经网络

    公开(公告)号:CN106779075A

    公开(公告)日:2017-05-31

    申请号:CN201710083101.3

    申请日:2017-02-16

    Applicant: 南京大学

    CPC classification number: G06N3/082

    Abstract: 本发明公开了一种计算机中采用剪枝方法改进的神经网络,包括:对于预训练完毕的神经网络,从网络参数中构造出若干项集,根据项集的重要性,利用改进的近似Apriori算法进行频繁项集挖掘得出重要项集的集合,由得到的项集构造出剪枝后的神经网络,最后对剪枝后的神经网络重新训练得到最终的结果。

    一种计算机中文文本分类方法

    公开(公告)号:CN103020167A

    公开(公告)日:2013-04-03

    申请号:CN201210489136.4

    申请日:2012-11-26

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中文文本分类方法,包括以下步骤:使用N-gram方法处理中文文本:使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量;使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;利用L1-正则化逻辑回归分类器模型为中文文本分类。本发明对现有的基于分词的中文文本分类方法进行改善和提高,能够避免分词对分类精度产生的不良影响。通过使用N-gram的形式来表达文本,可以很好地避免上述的两方面问题。同时L1-正则化逻辑回归分类器可以很好地解决N-gram带来的数据稀疏性问题,从而提高文本分类的精度。

    一种计算机中译英翻译中基于分词网的词对齐融合方法

    公开(公告)号:CN102193915B

    公开(公告)日:2012-11-28

    申请号:CN201110148692.0

    申请日:2011-06-03

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中译英翻译中基于分词网的汉英词对齐融合方法,包括以下步骤:步骤一,确定骨架对齐:用基于连接置信度的连接选择算法搜索选择最优的骨架连接,形成骨架对齐;步骤二,将选出骨架对齐投影到各个分词上,得到基于各种分词的词对齐。本发明对现有的基于单一分词的词对齐算法进行改善和提高,能同时提高了各个分词的词对齐质量和机器翻译质量。通过将多种分词下用于词对齐的特征融合起来,让最终的词对齐更加健壮,可以降低受分词错误或者双语分词不一致影响的词对齐错误数量。

    图像识别方法以及装置
    48.
    发明公开

    公开(公告)号:CN119339189A

    公开(公告)日:2025-01-21

    申请号:CN202310907241.3

    申请日:2023-07-21

    Abstract: 本申请公开了一种图像识别方法以及装置,其中,获取需要处理的待处理图像和待处理图像的拍摄信息;对待处理图像进行特征提取,得到图像特征;对拍摄信息编码,得到拍摄特征;融合图像特征和拍摄特征得到多模态特征;基于多模态特征确定待处理图像的图像识别结果。本申请综合利用待处理图像的图像特征和拍摄特征得到包含图像特征和拍摄特征的多模态特征,再利用多模态特征进行图像识别,能够根据多模态特征生成与现实拍摄特征高度相关的图像识别结果,从而可以提高图像识别的准确度。

    一种利用掩码语言模型建模的图片敏感文字检测方法

    公开(公告)号:CN118172778A

    公开(公告)日:2024-06-11

    申请号:CN202211579126.X

    申请日:2022-12-08

    Applicant: 南京大学

    Abstract: 本发明提出了一种利用掩码语言模型建模的图片敏感文字检测方法,包括:光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块;待检测图片依次经过光学字符识别模块、关键位置召回模块、掩码重建模块、重建结果选择模块和文字敏感性检测模块,得到最终的图片敏感文字检测结果。本发明方法简单直接,可理解性强;不需要人工标注数据训练模型,成本低廉;可以作为现有的图片敏感文字检测系统的扩充,用途广泛;通过掩码语言模型对关键位置的文本进行重建,既能够对光学字符识别出错的文字进行纠错,也可以还原出被故意修改的地方原本的文字,有助于减少图片敏感文字检测系统错检漏检情况的发生。

Patent Agency Ranking