-
公开(公告)号:CN117993398A
公开(公告)日:2024-05-07
申请号:CN202410154017.6
申请日:2024-02-04
Applicant: 南京大学
IPC: G06F40/58 , G06F40/53 , G06F40/242 , G06F40/129 , G06F16/33 , G06F16/36 , G06N3/048 , G06N3/0499 , G06N3/0455
Abstract: 本发明公开了一种词典释义增强的古文到现代文机器翻译方法,包括以下步骤:步骤1,收集古文词典释义资源;步骤2,在步骤1中收集的古文词典释义资源中,选择词典释义:根据待翻译的古文即源端句中的每一个汉字,计算其在该句子中的上下文表示与该汉字在每一个词典释义的示例中的上下文的表示的相似度,选取相似度最大的词典释义,并记录选取该词典释义的置信度;步骤3,词典释义编码:利用编码器获取步骤2中选取的词典释义中每一个词的上下文表示;步骤4,融合词典释义解码,获得预测的翻译结果,完成所述的词典释义增强的古文到现代文机器翻译。
-
公开(公告)号:CN118313380A
公开(公告)日:2024-07-09
申请号:CN202410418238.X
申请日:2024-04-09
Applicant: 南京大学
IPC: G06F40/295 , G06F16/33 , G06N3/0455
Abstract: 本发明公开了一种学习文本中事实性知识的模型训练方法,包括以下步骤:步骤1,根据先验知识从原始训练文本语料数据中选择高置信度的文本信源集合,获得可靠信源文本;步骤2,抽取可靠信源文本中的事实性知识,生成文本支持数据;步骤3,结合文本支持数据和原始训练文本语料数据训练生成式语言模型。该方法能够在文本语料训练过程中提升模型对可靠文本信源的学习效率和学习效果,减少为训练文本语料进行训练排序的人工成本,减少设计持续学习方案所需的人工成本;能够在训练过程中为语言模型注入更多可靠的事实性知识,不局限知识的表述方式,提升生成式语言模型的可靠性。
-