一种不平衡条件下的文本分类器构建方法和装置

    公开(公告)号:CN117371423A

    公开(公告)日:2024-01-09

    申请号:CN202311076561.5

    申请日:2023-08-24

    IPC分类号: G06F40/20 G06N3/0442 G06N3/09

    摘要: 本发明公开了一种不平衡条件下的文本分类器生成方法和装置,所述方法包括:获取不平衡数据,基于所述不平衡数据构建训练集;生成特征向量,将特征向量作为输入数据;将输入数据输入分类网络,分类网络包括依次相连的卷积层、池化层、LSTM层、GRU层、全连接层;输入数据经所述分类网络处理,得到中间分类结果,所述中间分类结果是未经完全训练,但是已有分类效果的结果;将中间分类结果与真实标签输入损失函数,得到中间结果对应的损失值,若损失值小于预定义的损失值,则当前的分类网络结合当前的权重作为构建完毕的分类器。本方法能在训练过程中减少分对样本的损失在总的损失中的权重,使得分类器的优化更偏向分错的样本。

    基于特征工程和表示学习的机器行为识别方法

    公开(公告)号:CN113608946A

    公开(公告)日:2021-11-05

    申请号:CN202110910834.6

    申请日:2021-08-10

    摘要: 基于特征工程和表示学习的机器行为识别方法,由三个步骤构成:步骤一,对大数据进行分析,通过时间、频次等多维度的信息,建立3σ模型,用于确定机器行为的访问时间频段,在机器行为的访问时间频段下,通过分组聚合等方式,归纳总结提取出基于机器行为的特征;步骤二,并通过查阅API文档、软件模拟复现、官方的RFC文档等方式对行为进行定义和命名,整合成一组完备的机器行为特征,完成基于特征工程机器行为识别工作;步骤三,对识别效果不佳的模型加入与其他行为存在交集的特征,去排除其他行为,以提高准确率。

    一种多源数据映射关联细粒度不良信息检测方法

    公开(公告)号:CN116680419B

    公开(公告)日:2023-12-26

    申请号:CN202310955604.0

    申请日:2023-08-01

    摘要: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。

    基于特征工程和表示学习的机器行为识别方法

    公开(公告)号:CN113608946B

    公开(公告)日:2023-09-12

    申请号:CN202110910834.6

    申请日:2021-08-10

    摘要: 基于特征工程和表示学习的机器行为识别方法,由三个步骤构成:步骤一,对大数据进行分析,通过时间、频次等多维度的信息,建立3σ模型,用于确定机器行为的访问时间频段,在机器行为的访问时间频段下,通过分组聚合等方式,归纳总结提取出基于机器行为的特征;步骤二,并通过查阅API文档、软件模拟复现、官方的RFC文档等方式对行为进行定义和命名,整合成一组完备的机器行为特征,完成基于特征工程机器行为识别工作;步骤三,对识别效果不佳的模型加入与其他行为存在交集的特征,去排除其他行为,以提高准确率。