一种语料信息的处理方法和装置

    公开(公告)号:CN111737456B

    公开(公告)日:2024-08-20

    申请号:CN202010413342.1

    申请日:2020-05-15

    发明人: 王璋琪 卢亿雷

    摘要: 本申请实施例公开了一种语料信息的处理方法和装置。所述方法包括:对获取到的语料进行多维的词向量的转换;通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度;按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;根据所述词向量的分布信息,控制对所述语料的标注操作。

    信息推送方法、装置、计算机设备和存储介质

    公开(公告)号:CN111127179A

    公开(公告)日:2020-05-08

    申请号:CN201911277050.3

    申请日:2019-12-12

    发明人: 王璋琪 卢亿雷

    摘要: 本申请实施例提供了一种信息推送方法、装置、计算机设备和存储介质,该方法包括获取待处理样本集;针对待处理样本集中的每个待处理样本,为该待处理样本生成样本特征向量,并预测该待处理样本在预设样本标签集中每个样本标签下的初始概率;基于每个待处理样本在样本标签集中每个样本标签下的初始概率,从所述待处理样本集中,确定部分待处理样本;基于每个待处理样本对应的样本特征向量和部分待处理样本分别对应的真实标签,以及所述样本标签集中每个样本标签对应的标签概率预测模型,从所述样本标签集中,为每个待处理样本选择目标标签,并推送。

    信息推送方法、装置、计算机设备和存储介质

    公开(公告)号:CN111127179B

    公开(公告)日:2023-08-29

    申请号:CN201911277050.3

    申请日:2019-12-12

    发明人: 王璋琪 卢亿雷

    摘要: 本申请实施例提供了一种信息推送方法、装置、计算机设备和存储介质,该方法包括获取待处理样本集;针对待处理样本集中的每个待处理样本,为该待处理样本生成样本特征向量,并预测该待处理样本在预设样本标签集中每个样本标签下的初始概率;基于每个待处理样本在样本标签集中每个样本标签下的初始概率,从所述待处理样本集中,确定部分待处理样本;基于每个待处理样本对应的样本特征向量和部分待处理样本分别对应的真实标签,以及所述样本标签集中每个样本标签对应的标签概率预测模型,从所述样本标签集中,为每个待处理样本选择目标标签,并推送。

    提升模型泛化能力的方法、系统、电子设备及存储介质

    公开(公告)号:CN112434471A

    公开(公告)日:2021-03-02

    申请号:CN202011437875.X

    申请日:2020-12-11

    发明人: 王璋琪 段少毅

    IPC分类号: G06F30/27 G06K9/62

    摘要: 本申请公开了提升模型泛化能力的方法、系统、电子设备及存储介质。提升模型泛化能力的方法包括:对抗验证集获取步骤:分别对原始训练集与原始测试集打上标签,合并建立新训练集,并按照所述新训练集训练模型并预测之后从预测结果中获取对抗验证集;模型获取步骤:利用实际训练集与所述对抗验证集来训练模型,根据模型在所述对抗验证集上的结果获取最终模型。本发明提出了基于PHM数据建模的一站式机器学习平台,该平台立足于实际业务,为用户提供垂直领域场景化的解决方案,提高用户开发效率。

    一种语料信息的处理方法和装置

    公开(公告)号:CN111737456A

    公开(公告)日:2020-10-02

    申请号:CN202010413342.1

    申请日:2020-05-15

    发明人: 王璋琪 卢亿雷

    IPC分类号: G06F16/35 G06F40/216 G06K9/62

    摘要: 本申请实施例公开了一种语料信息的处理方法和装置。所述方法包括:对获取到的语料进行多维的词向量的转换;通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度;按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;根据所述词向量的分布信息,控制对所述语料的标注操作。