-
公开(公告)号:CN116680419A
公开(公告)日:2023-09-01
申请号:CN202310955604.0
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/36 , G06F40/216 , G06F40/30 , G06F40/295
Abstract: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。
-
公开(公告)号:CN115982111A
公开(公告)日:2023-04-18
申请号:CN202211660716.5
申请日:2022-12-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/17 , G06F16/18 , H04L61/4511 , H04L101/69 , H04L101/668
Abstract: 本发明公开了一种基于IP访问特征的用户群体画像方法,涉及网络治理技术领域,该方法首先根据日志的访问域名的类别信息,通过数理统计的方法构建IP访问特征数据集,然后,基于用户群体划分算法识别特定群体和非特定群体,最后,构建用户群体属性标签体系,对划分的群体进行群体画像分析,在充分研究原始日志的基础上,以IP访问特征为着力点,设计了基于规则和机器学习相结合的用户群体划分算法,根据日志数据量大的特点,研究了在大数据情况下,优化机器学习算法效率的方法。
-