一种基于深度对齐矩阵分解模型进行学术论文推荐的方法

    公开(公告)号:CN108763367B

    公开(公告)日:2020-07-10

    申请号:CN201810473752.8

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于深度对齐矩阵分解模型进行学术论文推荐的方法,包括:分别通过两个非线性多层感知器,将用户和论文以及论文和单词映射到相同维度的低维特征空间;通过最大化同一篇论文的两种低维表示向量之间的相似度,在两个非线性多层感知器之间搭建起一个“桥梁”。最后,通过这个“论文信息桥梁”传递信息,轮流训练这两部分感知器。由于通过这种方法,在训练“用户‑论文”部分的感知器时,能借助“论文‑单词”部分的信息;在训练“论文‑单词”部分的感知器时,能借助“用户‑论文”部分的信息。所以,本发明可以同时使用“用户‑论文收藏记录”、“论文内容文本信息”,共同为用户论文推荐做贡献。

    一种计算机中涉及情感的文本数据分析方法

    公开(公告)号:CN105912720B

    公开(公告)日:2019-02-22

    申请号:CN201610289197.4

    申请日:2016-05-04

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中涉及情感的文本数据分析方法,包括:构造一种人工语言,训练对齐模型,抽取翻译短语,并利用对齐概率特征和翻译短语特征作为方面识别模型的信息特征,再对所识别到的方面类别结合句子信息进行情感倾向判别。对比现有的多方面情感分析方法,本方法突出在考虑了句子不同文本片段和输出信息中不同的部分的对应关系,并且能利用富含信息量的关键性短语。在具体的多方面情感分析实验中,可以得到更高的方面识别精度。

    利用外部信息的神经机器翻译方法

    公开(公告)号:CN108763230A

    公开(公告)日:2018-11-06

    申请号:CN201810581372.6

    申请日:2018-06-07

    Applicant: 南京大学

    Abstract: 本公开涉及利用外部信息的神经机器翻译方法,包括:接收源端源语言的文字序列作为源端输入;接收目标语言的文字序列作为外部信息输入;根据源端输入和外部信息输入,生成源端源语言文字序列的译文作为目标端输出。本公开提供的神经机器翻译方法通过在翻译过程中输入外部信息,为翻译提供了参考,有效提高了神经机器翻译的翻译效率。

    一种计算机中文文本分类方法

    公开(公告)号:CN103020167B

    公开(公告)日:2016-09-28

    申请号:CN201210489136.4

    申请日:2012-11-26

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中文文本分类方法,包括以下步骤:使用N‑gram方法处理中文文本:使用N‑gram的方法把中文文本的表示为一个由一组特征组成的特征向量;使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;利用L1‑正则化逻辑回归分类器模型为中文文本分类。本发明对现有的基于分词的中文文本分类方法进行改善和提高,能够避免分词对分类精度产生的不良影响。通过使用N‑gram的形式来表达文本,可以很好地避免上述的两方面问题。同时L1‑正则化逻辑回归分类器可以很好地解决N‑gram带来的数据稀疏性问题,从而提高文本分类的精度。

    一种计算机中涉及情感的文本数据分析方法

    公开(公告)号:CN105912720A

    公开(公告)日:2016-08-31

    申请号:CN201610289197.4

    申请日:2016-05-04

    Applicant: 南京大学

    CPC classification number: G06F17/30705 G06F17/30699 G06F17/30734

    Abstract: 本发明提出了一种计算机中涉及情感的文本数据分析方法,包括:构造一种人工语言,训练对齐模型,抽取翻译短语,并利用对齐概率特征和翻译短语特征作为方面识别模型的信息特征,再对所识别到的方面类别结合句子信息进行情感倾向判别。对比现有的多方面情感分析方法,本方法突出在考虑了句子不同文本片段和输出信息中不同的部分的对应关系,并且能利用富含信息量的关键性短语。在具体的多方面情感分析实验中,可以得到更高的方面识别精度。

    一种用于小样本意图识别的文本数据优化方法

    公开(公告)号:CN114564569B

    公开(公告)日:2025-04-25

    申请号:CN202210198697.2

    申请日:2022-03-02

    Applicant: 南京大学

    Abstract: 本发明提供了一种用于小样本意图识别的文本数据优化方法,包括以下步骤:步骤1,构建训练文本数据集;步骤2,对训练任务按照具有的意图数阶梯式地划分级别;步骤3,采样一个批次的小样本意图识别训练样本;步骤4,在基于度量学习的元学习模型上使用采样出的同一批次的两个以上的任务做并行训练;步骤5,判断训练是否终止;步骤6,结束模型训练。本发明可以将并行化训练元学习模型应用在现实场景中小样本意图识别的训练任务意图数不一致的情况。

    图像描述生成方法、装置、电子设备及存储介质

    公开(公告)号:CN119338927A

    公开(公告)日:2025-01-21

    申请号:CN202310906152.7

    申请日:2023-07-21

    Abstract: 本发明公开了一种图像描述生成方法、装置、电子设备及存储介质,该方法包括获取待处理文本信息和待处理图像,待处理文本信息为与待处理图像相关的文本信息,将待处理文本信息和待处理图像,输入至训练后的图像描述生成模型中进行图像描述生成处理,得到与待处理文本信息相关的第一图像描述,和与待处理图像相关的第二图像描述,根据第一图像描述和第二图像描述,确定待处理图像的目标图像描述。采用本发明实施例,利用与待处理图像相关的待处理文本信息,和待处理图像同时进行图像描述生成处理,并结合待处理文本信息和待处理图像对应的图像描述,能够有效提高生成的图像描述的质量。

    语料扩充方法、装置、计算机设备及存储介质

    公开(公告)号:CN113535969B

    公开(公告)日:2023-11-03

    申请号:CN202010313425.3

    申请日:2020-04-20

    Applicant: 南京大学

    Abstract: 本公开涉及计算机技术领域,尤其涉及一种语料扩充方法、装置、计算机设备及存储介质。所述方法包括:获取平行种子集、第一语料库和第二语料库,根据平行种子集、第一语料库和第二语料库,训练选择模型,对于第一语料库中的每个第一文本,通过训练完成的选择模型从第二语料库中确定匹配的第二文本;根据第一语料库中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对;对多组伪平行文本对进行筛选,将筛选后的多组伪平行文本对添加至平行种子集中。本公开实施例通过使用选择模型学习多个第一文本和多个第二文本之间的映射关系,避免了相关技术中因无法做到内容风格完全解耦而导致的风格转换失败的问题,保证了后续的语料生成效果。

    机器翻译模型的训练方法、装置和存储介质

    公开(公告)号:CN116522961A

    公开(公告)日:2023-08-01

    申请号:CN202310244591.6

    申请日:2023-03-14

    Applicant: 南京大学

    Abstract: 本发明公开了机器翻译模型的训练方法、装置和存储介质,方法为获取第i个词对第t的词的注意力分数;注意力分数和第i个词的词向量加权求和,得隐层向量;计算隐层向量与其对应离散隐变量的每个子属性值距离,距离最近子属性值为离散隐变量原始属性值;注意力分数和原始属性值对第t个词的离散隐变量加权求和,得属性向量;计算属性向量与第i个词的离散隐变量的每个子属性值距离,距离最近子属性值为第i个词离散隐变量的新属性值;损失函数对原始属性值和新属性值约束,得损失LC,新属性值融入隐层向量,得第i个词对应融合向量,利用融合向量计算机器翻译损失Lnmt;损失LC与损失Lnmt相加得最终损失函数,利用最终损失函数训练机器翻译模型。

Patent Agency Ranking