一种非监督重要性提取的长文本分类方法和装置

    公开(公告)号:CN115905515A

    公开(公告)日:2023-04-04

    申请号:CN202110901104.X

    申请日:2021-08-06

    Abstract: 本公开涉及非监督重要性提取的长文本分类方法和装置,该方法包括:文本分类模型预训练步骤,对长文本进行数据预处理,并训练出预训练的文本分类模型;标记初始化步骤,对长文本进行分句,对各个分句用预训练模型进行分类以得到初始化标签并区分为相关/不相关分句;分句标记更新步骤,在相关分句组的长度小于模型的最大长度时,通过进行重要度打分来追加新的相关分句以进行随机拼接,直到达到最大长度,从而循环更新验证以训练模型;以及下游模型分类步骤,将整体分句组中的相关分句输入训练出的文本分类模型进行长文本分类,以输出最终分类标签。

    用户缺失信息获取方法和装置

    公开(公告)号:CN112887491B

    公开(公告)日:2023-03-21

    申请号:CN201911195983.8

    申请日:2019-11-29

    Abstract: 本公开提出一种用户缺失信息获取方法和装置,涉及大数据技术领域。本公开的一种用户缺失信息获取方法包括:根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息;将异网用户的预计特征信息分别与预定数量的本网用户的特征信息结对,生成预定数量的结对特征信息;处理结对特征信息,获取针对每条结对特征信息的比对结果;根据每条结对特征信息的比对结果和结对特征信息中的本网用户的属性值,确定用户缺失值范围;根据预定数量的用户缺失值范围确定异网用户的预测缺失值。通过这样的方法,能够利用海量数据提高用户缺失值确定的准确性。

    用户缺失信息获取方法和装置

    公开(公告)号:CN112887491A

    公开(公告)日:2021-06-01

    申请号:CN201911195983.8

    申请日:2019-11-29

    Abstract: 本公开提出一种用户缺失信息获取方法和装置,涉及大数据技术领域。本公开的一种用户缺失信息获取方法包括:根据与异网用户存在通话关系的本网用户的特征信息确定异网用户的预计特征信息;将异网用户的预计特征信息分别与预定数量的本网用户的特征信息结对,生成预定数量的结对特征信息;处理结对特征信息,获取针对每条结对特征信息的比对结果;根据每条结对特征信息的比对结果和结对特征信息中的本网用户的属性值,确定用户缺失值范围;根据预定数量的用户缺失值范围确定异网用户的预测缺失值。通过这样的方法,能够利用海量数据提高用户缺失值确定的准确性。

    一种用于对文本进行分类的方法及装置

    公开(公告)号:CN115269824A

    公开(公告)日:2022-11-01

    申请号:CN202110483872.8

    申请日:2021-04-30

    Abstract: 本公开涉及一种用于对文本进行分类的方法及装置。提供了一种利用文本数据训练文本分类模型的方法,其中,所述文本数据包括无标签文本数据,所述方法包括:对所述无标签文本数据进行增强,以得到多个增强文本数据;基于所述无标签文本数据和所述多个增强文本数据,利用LDA主题提取模型来计算所述多个增强文本数据中的每个增强文本数据的综合得分;按照所述综合得分排序,从所述多个增强文本数据中筛选具有高质量的增强文本数据;以及利用基于筛选出的增强文本数据和相应的无标签文本数据的损失函数,对所述文本分类模型进行训练。

Patent Agency Ranking