一种处理多类型数据的方法及系统

    公开(公告)号:CN112328844B

    公开(公告)日:2024-07-02

    申请号:CN202011294673.4

    申请日:2020-11-18

    发明人: 佘璇 段少毅

    摘要: 本申请公开了一种处理多类型数据的方法及系统,所述方法包括:对数据进行预处理,获取训练数据;基于DeepFM模型进行改进,获取多类型数据处理模型;将所述训练数据输入到所述多类型数据处理模型进行模型训练,获取最优的所述多类型数据处理模型;通过最优的所述多类型数据处理模型对数据进行处理。基于本申请,能够对不同类型不同维度数据进行有效处理,从而更充分有效地利用数据来学习模型。

    一种Bert模型预训练方法、系统及计算机设备

    公开(公告)号:CN112528650B

    公开(公告)日:2024-04-02

    申请号:CN202011503784.1

    申请日:2020-12-18

    发明人: 佘璇 段少毅

    摘要: 本申请涉及一种Bert模型预训练方法、系统及计算机设备,其中,该Bert模型预训练方法包括:原始数据集获取步骤,用于获取原始数据集;数据集预处理步骤,用于将所述原始数据集经分词处理得到分词数据集,将所述分词数据集经Word2Vec模型训练得到全部词汇的词嵌入矩阵,并将所述词汇根据出现频率进行排序、编码,得到高频词汇、低频词汇及词汇编码;Bert模型预训练步骤,用于冻结所述Bert模型的词嵌入矩阵参数并基于所述全部词汇的词嵌入矩阵训练所述Bert模型后,减小学习率并输入所述词汇编码再次训练所述Bert模型。通过本申请,优化模型参数的收敛,有效防止模型震荡。

    一种Bert模型预训练方法、系统及计算机设备

    公开(公告)号:CN112528650A

    公开(公告)日:2021-03-19

    申请号:CN202011503784.1

    申请日:2020-12-18

    发明人: 佘璇 段少毅

    摘要: 本申请涉及一种Bert模型预训练方法、系统及计算机设备,其中,该Bert模型预训练方法包括:原始数据集获取步骤,用于获取原始数据集;数据集预处理步骤,用于将所述原始数据集经分词处理得到分词数据集,将所述分词数据集经Word2Vec模型训练得到全部词汇的词嵌入矩阵,并将所述词汇根据出现频率进行排序、编码,得到高频词汇、低频词汇及词汇编码;Bert模型预训练步骤,用于冻结所述Bert模型的词嵌入矩阵参数并基于所述全部词汇的词嵌入矩阵训练所述Bert模型后,减小学习率并输入所述词汇编码再次训练所述Bert模型。通过本申请,优化模型参数的收敛,有效防止模型震荡。

    一种处理多类型数据的方法及系统

    公开(公告)号:CN112328844A

    公开(公告)日:2021-02-05

    申请号:CN202011294673.4

    申请日:2020-11-18

    发明人: 佘璇 段少毅

    摘要: 本申请公开了一种处理多类型数据的方法及系统,所述方法包括:对数据进行预处理,获取训练数据;基于DeepFM模型进行改进,获取多类型数据处理模型;将所述训练数据输入到所述多类型数据处理模型进行模型训练,获取最优的所述多类型数据处理模型;通过最优的所述多类型数据处理模型对数据进行处理。基于本申请,能够对不同类型不同维度数据进行有效处理,从而更充分有效地利用数据来学习模型。