基于加权标签平滑的神经机器翻译模型训练方法

    公开(公告)号:CN114154519B

    公开(公告)日:2022-04-26

    申请号:CN202210117255.0

    申请日:2022-02-08

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于加权标签平滑的神经机器翻译模型训练方法,属于自然语言处理中的机器翻译领域。本发明为了解决词汇共享和标签平滑两个技术潜在的冲突,首先通过计算源端词汇,共享词汇和目标端词汇,生成新的训练标签向量,使用新生成的标签向量进行序列到序列的神经机器翻译模型训练。本发明为模型注入额外的机器翻译任务相关的先验信息,加强模型在翻译任务上的表现;通过动态调节标签平滑,避免了将平滑概率仅分配给源端词汇产生的误差,进一步提高了神经机器翻译模型的性能。

    基于加权标签平滑的神经机器翻译模型训练方法

    公开(公告)号:CN114154519A

    公开(公告)日:2022-03-08

    申请号:CN202210117255.0

    申请日:2022-02-08

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于加权标签平滑的神经机器翻译模型训练方法,属于自然语言处理中的机器翻译领域。本发明为了解决词汇共享和标签平滑两个技术潜在的冲突,首先通过计算源端词汇,共享词汇和目标端词汇,生成新的训练标签向量,使用新生成的标签向量进行序列到序列的神经机器翻译模型训练。本发明为模型注入额外的机器翻译任务相关的先验信息,加强模型在翻译任务上的表现;通过动态调节标签平滑,避免了将平滑概率仅分配给源端词汇产生的误差,进一步提高了神经机器翻译模型的性能。

    一种大规模预训练模型微调方法及装置

    公开(公告)号:CN113486162A

    公开(公告)日:2021-10-08

    申请号:CN202110628376.7

    申请日:2021-06-04

    Applicant: 北京大学

    Inventor: 常宝宝 许润昕

    Abstract: 本发明公布了一种大规模预训练模型微调方法及装置,所述方法包括:获取下游任务的训练数据集和预训练模型;根据所述训练数据集为所述预训练模型的各个参数计算出费希尔信息量;将预训练模型的各个参数,按照计算出的费希尔信息量的绝对值进行排序;选取设定比例的参数组成下游任务的功能子网络;对预训练模型进行微调,只更所述新功能子网络中的参数。本发明对不同的下游任务,自动选择与其最相关的、最重要的功能子网络,在微调过程中只更新这个功能子网络,这样降低了模型的复杂度与假设空间,能够有效避免模型在下游任务中产生严重的过拟合现象。

    一种基于提示学习的文本分类方法

    公开(公告)号:CN115563283B

    公开(公告)日:2023-04-25

    申请号:CN202211284873.0

    申请日:2022-10-20

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于提示学习的文本分类方法,属于自然语言处理中的文本分类领域。本发明根据输入文本调优提示参数,将输入文本和调优后的提示参数拼接后输入语言模型进行文本分类。本发明为每条数据生成专属提示,使得提示生成过程能共享输入信息,解决了提示与输入文本不匹配的问题,进一步提高文本分类模型的性能。

    一种基于提示学习的文本分类方法

    公开(公告)号:CN115563283A

    公开(公告)日:2023-01-03

    申请号:CN202211284873.0

    申请日:2022-10-20

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于提示学习的文本分类方法,属于自然语言处理中的文本分类领域。本发明根据输入文本调优提示参数,将输入文本和调优后的提示参数拼接后输入语言模型进行文本分类。本发明为每条数据生成专属提示,使得提示生成过程能共享输入信息,解决了提示与输入文本不匹配的问题,进一步提高文本分类模型的性能。

Patent Agency Ranking