-
公开(公告)号:CN116702094A
公开(公告)日:2023-09-05
申请号:CN202310957274.9
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/26 , G06F18/25 , G06F18/213 , G06F18/22 , G06F18/27 , G06N3/045 , G06N3/044 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及数据处理技术领域,提供一种群体应用偏好特征表示方法,其中方法包括:获取用户的交互数据;基于多模态预训练模型,提取所述交互数据的特征表示;基于所述交互数据的特征表示,确定所述交互数据的群体应用偏好特征;基于所述群体应用偏好特征,对所述用户进行画像。本发明提供的群体应用偏好特征表示方法,能够自适应的针对任意的纯文本数据、纯图像数据、图文混合数据提取联合特征,实现对多模态数据的分析处理,在图文模态下,可以增加特征提取的语义交互能力,使得到的群体应用偏好特征更准确,从而提高用户画像的质量。
-
公开(公告)号:CN113297934B
公开(公告)日:2024-03-29
申请号:CN202110512224.0
申请日:2021-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06V40/16 , G06V40/20 , G06V20/40 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了检测互联网暴力有害场景的多模态视频行为分析方法,主要包括视频场景人物快速定位检测、视频场景行为判别、视频场景有害程度定性三个阶段,该方法在行为识别的基础上,将目标人物情绪、网络评论弹幕情绪作为判定维度,实现对特定有害场景的精准发现。
-
公开(公告)号:CN116680419A
公开(公告)日:2023-09-01
申请号:CN202310955604.0
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/36 , G06F40/216 , G06F40/30 , G06F40/295
Abstract: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。
-
公开(公告)号:CN116680419B
公开(公告)日:2023-12-26
申请号:CN202310955604.0
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/36 , G06F40/216 , G06F40/30 , G06F40/295
Abstract: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。
-
公开(公告)号:CN116702094B
公开(公告)日:2023-12-22
申请号:CN202310957274.9
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/26 , G06F18/25 , G06F18/213 , G06F18/22 , G06F18/27 , G06N3/045 , G06N3/044 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及数据处理技术领域,提供一种群体应用偏好特征表示方法,其中方法包括:获取用户的交互数据;基于多模态预训练模型,提取所述交互数据的特征表示;基于所述交互数据的特征表示,确定所述交互数据的群体应用偏好特征;基于所述群体应用偏好特征,对所述用户进行画像。本发明提供的群体应用偏好特征表示方法,能够自适应的针对任意的纯文本数据、纯图像数据、图文混合数据提取联合特征,实现对多模态数据的分析处理,在图文模态下,可以增加特征提取的语义交互能力,使得到的群体应用偏好特征更准确,从而提高用户画像的质量。
-
公开(公告)号:CN113297934A
公开(公告)日:2021-08-24
申请号:CN202110512224.0
申请日:2021-05-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了检测互联网暴力有害场景的多模态视频行为分析方法,主要包括视频场景人物快速定位检测、视频场景行为判别、视频场景有害程度定性三个阶段,该方法在行为识别的基础上,将目标人物情绪、网络评论弹幕情绪作为判定维度,实现对特定有害场景的精准发现。
-
公开(公告)号:CN117371423A
公开(公告)日:2024-01-09
申请号:CN202311076561.5
申请日:2023-08-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/20 , G06N3/0442 , G06N3/09
Abstract: 本发明公开了一种不平衡条件下的文本分类器生成方法和装置,所述方法包括:获取不平衡数据,基于所述不平衡数据构建训练集;生成特征向量,将特征向量作为输入数据;将输入数据输入分类网络,分类网络包括依次相连的卷积层、池化层、LSTM层、GRU层、全连接层;输入数据经所述分类网络处理,得到中间分类结果,所述中间分类结果是未经完全训练,但是已有分类效果的结果;将中间分类结果与真实标签输入损失函数,得到中间结果对应的损失值,若损失值小于预定义的损失值,则当前的分类网络结合当前的权重作为构建完毕的分类器。本方法能在训练过程中减少分对样本的损失在总的损失中的权重,使得分类器的优化更偏向分错的样本。
-
公开(公告)号:CN117194773A
公开(公告)日:2023-12-08
申请号:CN202311061729.5
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/9538 , G06F16/35 , G06F16/532
Abstract: 本发明公开了一种基于多模态特征的网站识别方法及装置,所述方法包括:获取处理后的网页信息;得到对应的网页文本特征;获取网页用户特征;获取网页资源信息特征;获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。本方法利用多模态识别模型对网站进行分类,有效提高了对不良网站识别的准确率。
-
公开(公告)号:CN119249308A
公开(公告)日:2025-01-03
申请号:CN202411100861.7
申请日:2024-08-12
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/2433 , G06F18/10 , G06F18/214 , G06Q10/047 , G06N3/0895 , G06N3/09 , G01C21/20
Abstract: 本发明设计了一种基于多维度历史行为轨迹数据的用户位置预测方法,涉及时空数据挖掘技术领域。本方法该方法首先从用户使用基于位置的APP历史行为日志中读取用户的位置信息、网络行为信息和社交关系信息,针对其数据特点对其预处理并获得数据集;设计了轨迹剪切、轨迹遮蔽、停留点简化、停留点位置偏移、行为变换、行为遮盖这6种数据增强方法,之后通过一种自监督对比学习训练模型完成训练,从而更全面的提取用户行为特征,从在此基础上实现用户位置预测。本发明方法充分利用了位置信息、网络行为信息和社交关系信息多种维度特征,提升了模型的预测精度。
-
公开(公告)号:CN119249307A
公开(公告)日:2025-01-03
申请号:CN202411100860.2
申请日:2024-08-12
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/2433 , G06F18/10 , G06Q10/047 , G01C21/20
Abstract: 本发明设计了一种基于时空网格化编码挖掘热点区域和热点路线的方法,以跑步APP为例,通过分析跑步APP内的用户运动记录数据,来挖掘并推荐城市内的热点运动地区和热点跑步路线。该方法首先对用户运动记录数据进行预处理和层次化数据处理,以准确还原用户的真实运动轨迹。采用一种时空网格化编码方法,以对用户轨迹数据进行高效压缩和表示。最后,利用数据分析算法处理时空网格化编码,实现对城市内热点运动地区和热门跑步路线的挖掘,从而提升跑步爱好者的使用体验。本发明通过综合考虑静态地理信息和动态环境因素,为跑步爱好者提供既安全又舒适的运动地区和跑步路线推荐,具有广阔的应用前景。
-
-
-
-
-
-
-
-
-