一种交叉熵损失函数安全计算方法及系统

    公开(公告)号:CN114218617B

    公开(公告)日:2024-06-21

    申请号:CN202111362067.6

    申请日:2021-11-17

    Abstract: 本发明公开了一种交叉熵损失函数安全计算方法及系统,其中,上述方法包括:根据需要进行计算的输入概率分布序列生成第一概率输入序列和第二概率输入序列;根据需要进行计算的待输入标签序列生成第一标签输入序列和第二标签输入序列。分别使用第一计算终端针对第一概率输入序列和第一标签输入序列进行计算,使用第二计算终端针对第二概率输入序列和第二标签输入序列进行计算,计算过程中引入随机序列组对各数据进行保护,进一步防止数据泄露或隐私泄露,最后将获得的第一目标结果和第二目标结果相加则可以消除随机序列组的影响,获得实际的计算结果。计算过程中的数据是经过随机序列组保护后的数据,有利于提高交叉熵损失函数计算的安全性。

    通信方法、通信装置、电子设备及存储介质

    公开(公告)号:CN117061509A

    公开(公告)日:2023-11-14

    申请号:CN202310813971.7

    申请日:2023-07-04

    Abstract: 本申请实施例公开了通信方法、装通信置、电子设备及存储介质,涉及通信技术领域。通过获取计算设备的第三数量个参数梯度并进行划分,得到第二数量个第一参数梯度,并将第一参数梯度发送至计算节点中预设的计算设备,对计算设备分组得到第二数量个计算设备集合,每个计算设备集合中是来自不同计算节点的第一数量个计算设备。在计算设备集合中,对计算设备的第一参数梯度进行划分得到第一数量个第二参数梯度,并将第二参数梯度发送至计算设备集合中预设的计算设备,从而根据计算设备接收到的第二参数梯度得到计算节点的通信量。由此对不同的计算节点的计算设备及其参数梯度进行分组,有效减少计算节点间的通信量,从而减少通信时间提高训练效率。

    深度学习模型的通信优化方法及装置、存储介质

    公开(公告)号:CN116489678A

    公开(公告)日:2023-07-25

    申请号:CN202310389923.X

    申请日:2023-04-04

    Abstract: 本申请实施例提供了一种深度学习模型的通信优化方法及装置、存储介质,方法包括:对深度学习模型进行切分,得到位于第一通信节点下的第一子模型和位于第二通信节点下的第二子模型;在第一通信节点下,根据稀疏化比例参数和第一子模型传输的前向数据,计算前向数据的稀疏化阈值,并且根据稀疏化阈值和稀疏化比例参数对前向数据进行压缩,得到中间数据;在第二通信节点下,根据量化参数对中间数据进行解压缩,得到后向数据;向第二子模型传输后向数据以进行训练。本申请实施例中,两个子模型所处的两个通信节点之间采用低带宽网络连接,整个通信过程的负载消耗能够得到限制,从而能够在保持深度学习模型的训练精度的前提下,有效地降低通信负载。

    一种跨计算节点分布式训练高效通信方法及系统

    公开(公告)号:CN116070719A

    公开(公告)日:2023-05-05

    申请号:CN202310271228.3

    申请日:2023-03-20

    Abstract: 本发明公开了一种跨计算节点分布式训练高效通信方法及系统,所述方法包括:在中心服务器上构建分布式训练机器学习模型;获取分布式训练机器学习模型中每个计算节点的本地更新量,并对本地更新量进行量化,得到量化后的本地更新量;根据量化后的本地更新量得到全局更新量,并对全局更新量进行量化,得到量化后的全局更新量;在各计算节点中,根据量化后的全局更新量更新分布式训练机器学习模型参数,得到更新后的分布式训练机器学习模型。本发明通过量化方法将计算节点间所需要通信的数据进行压缩以减少通讯数据量,不会影响最终收敛特性,从而减少通信时间,提高系统的整体训练效率。

    基于多面体模型建模的自动并行策略搜索方法及相关设备

    公开(公告)号:CN115964947A

    公开(公告)日:2023-04-14

    申请号:CN202211704600.7

    申请日:2022-12-29

    Abstract: 本发明公开了基于多面体模型建模的自动并行策略搜索方法及相关设备,所述方法包括:根据每两个客户端的智算网络的智算中心资源,以最优的并行策略作为约束条件,分别对该两个客户端上的编解码架构模型进行分配;控制该两个客户端利用所有经过分配后的编解码架构模型,对所述智算中心资源进行协同训练和聚合操作,计算得到多面体模型的梯度值。通过先根据每两个客户端的智算网络的智算中心资源,对各自的编解码架构模型进行不同的分配,再利用经过分配后的编解码架构模型对所述智算中心资源进行协同训练和聚合操作,以便计算得到梯度值,从而实现根据不同算力分布、数据分布、以及不同业务场景进行分配,使得满足多种业务场景,实现大模型训练在智算网络中的规模化扩展。

    多语言翻译模型的生成方法、翻译方法、终端及介质

    公开(公告)号:CN115796192A

    公开(公告)日:2023-03-14

    申请号:CN202211011066.1

    申请日:2022-08-23

    Abstract: 本发明实施例提供了一种多语言翻译模型的生成方法、翻译方法、终端及存储介质,通过获取多个第一单语语句,对预设自回归语言模型进行训练,生成预训练语言模型;所述预设自回归语言模型由解码器组成;获取多个双语语句对,并将所述双语语句对中互译的两个语句拼接,生成双语训练样本;基于所述双语训练样本对所述预训练语言模型进行训练,生成多语言翻译模型;所述多语言翻译模型用于将给定的源语言翻译出目标语句。通过上述方案,利用稀缺语言资源生成高翻译质量的多语言翻译模型,实现高质量的多语言翻译。

    一种分布式FTP容器部署方法、装置、终端及存储介质

    公开(公告)号:CN115499308A

    公开(公告)日:2022-12-20

    申请号:CN202210972995.2

    申请日:2022-08-15

    Abstract: 本发明公开了一种分布式FTP容器部署方法、装置、终端及存储介质,方法包括:调用服务插件程序,通过服务插件程序读取共享存储服务器中的用户存储根目录信息,并将集群中用户信息同步初始化存储至FTP服务的数据库中;通过数据库中的用户信息对用户登入权限进行校验,并根据校验结果在共享存储服务器中配置对应的用户存储根目录信息及FTP服务访问权限文件;将配置后的FTP服务以helm容器化的方式部署至所述集群中。本发明通过Mysql数据库、FTP服务以及服务插件的多容器微服务分布式组网模式,提高了服务器整体的扩展性和高可用性,从而提高了用户文件的上传和下载的效率。

    一种数据集处理方法、系统、终端及计算机可读存储介质

    公开(公告)号:CN115407936A

    公开(公告)日:2022-11-29

    申请号:CN202210938171.3

    申请日:2022-08-05

    Abstract: 本发明公开了一种数据集处理方法、系统、终端及计算机可读存储介质,所述方法包括:根据指定的本地原始数据的路径和目标对象云的基本信息,调用框架层接口创建数据集,并对数据集进行压缩处理;当数据集压缩处理完成后得到多个不同的数据块,并将所有数据块异步上传到目标对象云进行存储;当进行机器学习时,加载目标对象云中的数据集到机器节点,完成模型训练。本发明基于数据集样本相似性特性对数据进行合理分块压缩存储,极大的增加传输效率同时也减少了存储介质,在数据落地存储前对块进行合理的打乱处理,在实际任务训练时时取得更好的训练效果,优化了数据集在统一对象存储的加载速度和训练效果。

    基于对比学习的小样本学习鲁棒性提升方法

    公开(公告)号:CN114781651A

    公开(公告)日:2022-07-22

    申请号:CN202210565539.6

    申请日:2022-05-23

    Abstract: 本发明公开了一种基于对比学习的小样本学习鲁棒性提升方法,包括以下步骤:S1、对原始数据集进行预处理,构造对抗数据集和对比数据集;S2、将原始数据集、对抗数据集和对比数据集分别输入预训练语言模型中,得到相应的嵌入表示,并使用对比学习损失函数计算三种嵌入表示之间的距离;S3、根据对比学习损失函数与原模型的损失函数计算模型更新的梯度,以总体损失更小为目标来训练模型。本发明通过构造对抗和对比数据集为模型鲁棒性学习提供数据支持,使用对比学习目标函数计算损失能够更好地获取原始样本与对抗样本的相似性,也能更好地区分原始样本与对比样本的差异,从而提升模型受到对抗或者对比扰动时的鲁棒性。

    支持高并发的大规模生成式语言模型快速推理方法及系统

    公开(公告)号:CN114385785A

    公开(公告)日:2022-04-22

    申请号:CN202111594472.0

    申请日:2021-12-23

    Abstract: 本发明公开了一种支持高并发的大规模生成式语言模型快速推理方法及系统,方法包括:获取第i步的前序文本的注意力中间值和第i步的预测文本,并保存第i步的前序文本的注意力中间值;获取第i步的预测文本对应的注意力中间值,根据第i步的预测文本对应的注意力中间值与第i步的前序文本对应的注意力中间值获取第i+1步的前序文本对应的注意力输出结果;根据第i+1步的前序文本对应的注意力输出结果生成第i+1步的预测文本。本发明能够加速大规模生成式语言模型的推理速度,缩短用户等待模型输出的时间。

Patent Agency Ranking