语言模型的训练方法、装置、介质及设备

发明公开

CN115600646A 语言模型的训练方法、装置、介质及设备审中-实审

请登陆查看更多内容

专利标题： 语言模型的训练方法、装置、介质及设备
申请号： CN202211280626.3

申请日： 2022-10-19
公开(公告)号： CN115600646A

公开(公告)日： 2023-01-13
发明人: 丁思宇 , 王硕寰 , 赵晏彬 , 孙宇
申请人： 北京百度网讯科技有限公司(CN)
申请人地址： 北京市海淀区上地十街10号百度大厦2层
专利权人： 北京百度网讯科技有限公司(CN)
当前专利权人： 北京百度网讯科技有限公司(CN)
当前专利权人地址： 北京市海淀区上地十街10号百度大厦2层
代理机构： 北京市汉坤律师事务所
代理商 姜浩然; 吴丽丽
主分类号： G06N3/04
IPC分类号： G06N3/04 ; G06N3/08 ; G06F40/289

摘要：

本公开提供了一种语言模型的训练方法、装置、介质及设备，涉及人工智能技术领域，尤其涉及自然语言处理领域。实现方案为：获取样本文本和相应的样本标签；基于样本文本，获取第一分词序列和第二分词序列；将第一分词序列的多个分词输入到第一子模型中，以获得第一预测结果；将第二分词序列的多个分词输入到第二子模型中，以获得第二预测结果；基于第一预测结果和第二预测结果，计算第一损失函数；基于第一预测结果、第二预测结果和该样本数据相应的样本标签，计算第二损失函数；以及基于第一损失函数和第二损失函数，调整初始语言模型的至少一个参数，以获得语言模型。

公开/授权文献

CN115600646B 语言模型的训练方法、装置、介质及设备公开/授权日：2023-10-03

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06N	基于特定计算模型的计算机系统
G06N3/00	基于生物学模型的计算机系统
G06N3/02	.采用神经网络模型
G06N3/04	..体系结构，例如，互连拓扑