-
公开(公告)号:CN112328844B
公开(公告)日:2024-07-02
申请号:CN202011294673.4
申请日:2020-11-18
申请人: 恩亿科(北京)数据科技有限公司
IPC分类号: G06F16/903 , G06F16/906 , G06F18/214
摘要: 本申请公开了一种处理多类型数据的方法及系统,所述方法包括:对数据进行预处理,获取训练数据;基于DeepFM模型进行改进,获取多类型数据处理模型;将所述训练数据输入到所述多类型数据处理模型进行模型训练,获取最优的所述多类型数据处理模型;通过最优的所述多类型数据处理模型对数据进行处理。基于本申请,能够对不同类型不同维度数据进行有效处理,从而更充分有效地利用数据来学习模型。
-
公开(公告)号:CN112528650B
公开(公告)日:2024-04-02
申请号:CN202011503784.1
申请日:2020-12-18
申请人: 恩亿科(北京)数据科技有限公司
IPC分类号: G06F40/284 , G06F40/126 , G06N20/00
摘要: 本申请涉及一种Bert模型预训练方法、系统及计算机设备,其中,该Bert模型预训练方法包括:原始数据集获取步骤,用于获取原始数据集;数据集预处理步骤,用于将所述原始数据集经分词处理得到分词数据集,将所述分词数据集经Word2Vec模型训练得到全部词汇的词嵌入矩阵,并将所述词汇根据出现频率进行排序、编码,得到高频词汇、低频词汇及词汇编码;Bert模型预训练步骤,用于冻结所述Bert模型的词嵌入矩阵参数并基于所述全部词汇的词嵌入矩阵训练所述Bert模型后,减小学习率并输入所述词汇编码再次训练所述Bert模型。通过本申请,优化模型参数的收敛,有效防止模型震荡。
-
公开(公告)号:CN112528650A
公开(公告)日:2021-03-19
申请号:CN202011503784.1
申请日:2020-12-18
申请人: 恩亿科(北京)数据科技有限公司
IPC分类号: G06F40/284 , G06F40/126 , G06N20/00
摘要: 本申请涉及一种Bert模型预训练方法、系统及计算机设备,其中,该Bert模型预训练方法包括:原始数据集获取步骤,用于获取原始数据集;数据集预处理步骤,用于将所述原始数据集经分词处理得到分词数据集,将所述分词数据集经Word2Vec模型训练得到全部词汇的词嵌入矩阵,并将所述词汇根据出现频率进行排序、编码,得到高频词汇、低频词汇及词汇编码;Bert模型预训练步骤,用于冻结所述Bert模型的词嵌入矩阵参数并基于所述全部词汇的词嵌入矩阵训练所述Bert模型后,减小学习率并输入所述词汇编码再次训练所述Bert模型。通过本申请,优化模型参数的收敛,有效防止模型震荡。
-
公开(公告)号:CN112328844A
公开(公告)日:2021-02-05
申请号:CN202011294673.4
申请日:2020-11-18
申请人: 恩亿科(北京)数据科技有限公司
IPC分类号: G06F16/903 , G06F16/906 , G06K9/62
摘要: 本申请公开了一种处理多类型数据的方法及系统,所述方法包括:对数据进行预处理,获取训练数据;基于DeepFM模型进行改进,获取多类型数据处理模型;将所述训练数据输入到所述多类型数据处理模型进行模型训练,获取最优的所述多类型数据处理模型;通过最优的所述多类型数据处理模型对数据进行处理。基于本申请,能够对不同类型不同维度数据进行有效处理,从而更充分有效地利用数据来学习模型。
-
-
-