一种利用多样化文本特征进行文本分类的方法

    公开(公告)号:CN108664633B

    公开(公告)日:2020-12-04

    申请号:CN201810460235.7

    申请日:2018-05-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种利用多样化文本特征进行文本分类的方法,包括以下步骤:使用多维度文本表示算法,生成多组不同的文本特征表示,即纵向生成多维度文本特征表示;使用多种不同的文本表示算法,生成多组不同的文本特征表示,即横向生成多维度文本特征表示;将每个样本不同的特征表示向量进行组合,作为样本新的特征向量,进而得到数据集新的特征表示。将本发明对现有的文本表示算法进行了改进,提出了利用更多的维度较低且差异较大的文本表示来挖掘文本不同的内部结构,增强文本表示的能力,可以在极大程度上降低文本特征维度的同时,提升文本分类等任务的效果。

    融合外部数据的基于方面类别的可解释性推荐方法及系统

    公开(公告)号:CN111966888A

    公开(公告)日:2020-11-20

    申请号:CN201910420367.1

    申请日:2019-05-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种融合外部数据的基于方面类别的可解释性推荐方法和系统,该方法包括:S1:利用外部标准标注数据训练方面类别分类器和方面类别的情感极性分类器;S2:利用所述方面类别分类器和情感极性分类器对评论数据进行分类,得到每条评论的方面类别向量[a1,a2,…,an]和对应每个方面的情感向量[p1,p2,…,pn],其中n为方面的数量;S3:将所述方面类别向量与情感向量进行融合,得到待推荐的商品的预测打分和推荐理由。本发明引入了外部数据,提高了aspect和情感极性判断的准确性,使得对于评论的建模更加准确,也更加标准化,并具有更强的可解释性;利用外部标准标注数据的信息辅助监督评论的建模,降低了需要额外标注评论信息的成本。

    一种基于深度对齐矩阵分解模型进行学术论文推荐的方法

    公开(公告)号:CN108763367A

    公开(公告)日:2018-11-06

    申请号:CN201810473752.8

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于深度对齐矩阵分解模型进行学术论文推荐的方法,包括:分别通过两个非线性多层感知器,将用户和论文以及论文和单词映射到相同维度的低维特征空间;通过最大化同一篇论文的两种低维表示向量之间的相似度,在两个非线性多层感知器之间搭建起一个“桥梁”。最后,通过这个“论文信息桥梁”传递信息,轮流训练这两部分感知器。由于通过这种方法,在训练“用户‑论文”部分的感知器时,能借助“论文‑单词”部分的信息;在训练“论文‑单词”部分的感知器时,能借助“用户‑论文”部分的信息。所以,本发明可以同时使用“用户‑论文收藏记录”、“论文内容文本信息”,共同为用户论文推荐做贡献。

    一种计算机中自动生成英文论文标题缩写词的方法

    公开(公告)号:CN107577669A

    公开(公告)日:2018-01-12

    申请号:CN201710831975.2

    申请日:2017-09-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种计算机中自动生成英文论文标题缩写词的方法,包括以下步骤:对描述内容进行分析,得到各个词语的权重,即重要程度;根据各个词的权重,采用beamsearch的方法在整个缩写词空间中搜索候选缩写词,并得到缩写词的初步打分;对缩写词打分进行调整,得到最终的得分,并按从大到小排序。本发明对现有的缩写词生成方法进行改善和提高,能够避免对描述文本各部分平等处理的问题。同时,通过句法分析、语义分析、语言模型等自然语言处理相关技术在一定程度上学习人们在创造缩写词的时候所考虑到的语言学相关知识,使形成缩写词的过程更具有解释性。

    一种自动探索更多参考译文信息的机器翻译优化方法

    公开(公告)号:CN107133223A

    公开(公告)日:2017-09-05

    申请号:CN201710262369.3

    申请日:2017-04-20

    Applicant: 南京大学

    CPC classification number: G06F17/289 G06F17/274 G06N20/00

    Abstract: 本发明公开了一种自动探索更多参考译文信息的机器翻译优化方法,利用图扩展参考译文的信息,对机器翻译得到的译文进行更充分的评价,同时在利用译文信息扩展的评价方法参与训练过程时,帮助系统更好的进行参数学习。主要步骤如下:利用GIZA++获取源端到目标端的词对齐信息,根据词对齐信息将参考译文切分成短语块,利用源端词序对每一个参考译文构建子图,将若干个子图合并,最终可将并列的若干个参考译文表示成一个参考译文图,将不同的参考译文联系起来,获得更多的信息,最终利用源语言将待评价译文和参考译文图之间联系起来,从图中选出一条与待评价译文最接近的路径进行最终的译文质量评价。

    一种基于状态转移与神经网络的汉语组块分析方法

    公开(公告)号:CN106021227A

    公开(公告)日:2016-10-12

    申请号:CN201610324281.5

    申请日:2016-05-16

    Applicant: 南京大学

    CPC classification number: G06F17/271 G06F17/2775

    Abstract: 本发明提出了一种基于状态转移与神经网络的汉语组块分析方法,包括:将组块分析任务转换成序列化标注任务,使用基于状态转移的框架对句子进行标注,在标注的过程中使用前向神经网络来对每个状态将要进行的转移操作进行打分,并将利用双向长短记忆神经网络模型学习到的词以及词性标注的分布式表示特征作为标注模型的附加信息特征,从而提高组块分析的精确度。对比其它汉语组块分析技术,该汉语组块分析方法使用的基于状态转移的框架可以更灵活地添加组块级别的特征,同时神经网络的使用可以自动学到特征之间的组合方式,双向长短记忆神经网络模型的利用引入了有用的附加信息特征,三者的结合有效提高了组块分析的准确度。

    一种计算机中限定翻译片段的交互式翻译方法

    公开(公告)号:CN104899193A

    公开(公告)日:2015-09-09

    申请号:CN201510330285.X

    申请日:2015-06-15

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中限定翻译片段的交互式翻译方法,包括:用户输入需要翻译的句子,由系统给出原始翻译结果,当用户对系统给出的翻译结果的顺序有不同意见,通过点击操作对源语言片段进行限制,使得其作为一个完整的整体,系统根据重新翻译,避免系统翻译中存在的某些整体被作为多个子部分而分别翻译时,与其他部分发生的调序错误。对比现有的简单的网页翻译系统,本方法突出在不需要用户提供正确翻译结果的情况下,仅提供翻译片段切分信息,即可以让系统利用用户提供的信息进行重新解码,针对调序问题进行限制;对比已有的交互式翻译系统,本方法提供了更有效的交互信息及交互方式,在实际实验情况下可提高翻译质量。

    一种基于篇章文档的自适应输入法

    公开(公告)号:CN103970910A

    公开(公告)日:2014-08-06

    申请号:CN201410229623.6

    申请日:2014-05-27

    Applicant: 南京大学

    CPC classification number: G06F3/0233 G06F17/30663 G06F17/30684

    Abstract: 本发明提出了一种基于用户本地篇章文档的自适应输入法,与传统的输入法不同,本发明基于用户本地文档,自动感知用户当前的知识领域。首先,系统自动建立一个基础数据集,不同的知识领域建立相应的领域数据集,系统会根据用户已输入文字信息感知到相应的领域并自动切换到当前的领域数据集,通过调整领域数据集和基础数据集之间的权值关系,提高领域数据集的比重,实现不同知识领域之间的自动感知和参数调整;随着输入信息的增加,相应的领域数据集也会不断的更新,同时提取领域数据集中的高频字串动态填充基础数据集信息。本输入法更加智能的理解用户要输入的信息,减少选择次数,提高首次选择的准确率,同时也显著降低了重码率。

    一种学习文本中事实性知识的模型训练方法

    公开(公告)号:CN118313380A

    公开(公告)日:2024-07-09

    申请号:CN202410418238.X

    申请日:2024-04-09

    Applicant: 南京大学

    Abstract: 本发明公开了一种学习文本中事实性知识的模型训练方法,包括以下步骤:步骤1,根据先验知识从原始训练文本语料数据中选择高置信度的文本信源集合,获得可靠信源文本;步骤2,抽取可靠信源文本中的事实性知识,生成文本支持数据;步骤3,结合文本支持数据和原始训练文本语料数据训练生成式语言模型。该方法能够在文本语料训练过程中提升模型对可靠文本信源的学习效率和学习效果,减少为训练文本语料进行训练排序的人工成本,减少设计持续学习方案所需的人工成本;能够在训练过程中为语言模型注入更多可靠的事实性知识,不局限知识的表述方式,提升生成式语言模型的可靠性。

Patent Agency Ranking