用于点击率预测的基于图的大规模embedding模型训练方法及系统

    公开(公告)号:CN114358859B

    公开(公告)日:2022-07-01

    申请号:CN202210277082.9

    申请日:2022-03-21

    Applicant: 北京大学

    Abstract: 本发明公布了一种用于点击率预测的基于图的大规模embedding模型训练方法及系统,系统包括密集参数模块和客户端模块,采用混合通信架构,将点击率预测输入数据集分配给不同工作节点,每个工作节点维护一个客户端,本地模型参数均直接存储在GPU内存中;每个工作节点均持有模型参数副本,并在训练时进行同步。本发明采用Embedding模型参数表示点击率预测输入数据对应类别特征值的重要性,将点击率预测数据和embedding模型向量表示为二元图模型,利用图局部性和度数偏斜特性执行模型并行训练;设计基于图的分区和有界同步,提高训练大型embedding模型的可扩展性和并行计算效率。

    用于点击率预测的基于图的大规模embedding模型训练方法及系统

    公开(公告)号:CN114358859A

    公开(公告)日:2022-04-15

    申请号:CN202210277082.9

    申请日:2022-03-21

    Applicant: 北京大学

    Abstract: 本发明公布了一种用于点击率预测的基于图的大规模embedding模型训练方法及系统,系统包括密集参数模块和客户端模块,采用混合通信架构,将点击率预测输入数据集分配给不同工作节点,每个工作节点维护一个客户端,本地模型参数均直接存储在GPU内存中;每个工作节点均持有模型参数副本,并在训练时进行同步。本发明采用Embedding模型参数表示点击率预测输入数据对应类别特征值的重要性,将点击率预测数据和embedding模型向量表示为二元图模型,利用图局部性和度数偏斜特性执行模型并行训练;设计基于图的分区和有界同步,提高训练大型embedding模型的可扩展性和并行计算效率。

Patent Agency Ranking