一种多源数据映射关联细粒度不良信息检测方法

    公开(公告)号:CN116680419B

    公开(公告)日:2023-12-26

    申请号:CN202310955604.0

    申请日:2023-08-01

    Abstract: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。

    基于百科知识的移动应用知识图谱复合型补全方法及装置

    公开(公告)号:CN110851612B

    公开(公告)日:2023-08-18

    申请号:CN201910806480.3

    申请日:2019-08-29

    Inventor: 钮艳 赵淳璐

    Abstract: 本发明公开了一种基于百科知识的移动应用知识图谱复合型补全方法及装置,所述方法包括:对于给定的百科站点,读取该百科站点对应的配置文件,并利用配置文件中的信息,筛选出该百科站点中与移动应用相关联的百科页面;利用网络爬虫抓取筛选出的所述百科页面并存储;针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储;根据抽取的所述结构化知识,更新AllegroGraph中移动应用的属性信息,同时返回一个更新文件提示原始的数据库进行移动应用图谱数据的同步更新补全。

    基于表示学习的相似移动应用计算方法及装置

    公开(公告)号:CN110879861B

    公开(公告)日:2023-07-14

    申请号:CN201910834941.8

    申请日:2019-09-05

    Abstract: 本发明公开了一种基于表示学习的相似移动应用计算方法,所述方法包括:读取移动应用相关的文档、网页以及图数据库中的三元组,获取与文档、网页以及图数据库中与所述移动应用相关的实体,构建表示学习算法‑网络嵌入模型LINE网络;基于LINE负采样技术优化Skip‑gram模型,通过所述Skip‑gram模型训练所述LINE网络,得到每个实体以及移动应用自身的向量表示;根据每个实体以及移动应用自身的向量表示,对移动应用进行相似度计算。

    基于百科知识的移动应用知识图谱复合型补全方法及装置

    公开(公告)号:CN110851612A

    公开(公告)日:2020-02-28

    申请号:CN201910806480.3

    申请日:2019-08-29

    Inventor: 钮艳 赵淳璐

    Abstract: 本发明公开了一种基于百科知识的移动应用知识图谱复合型补全方法及装置,所述方法包括:对于给定的百科站点,读取该百科站点对应的配置文件,并利用配置文件中的信息,筛选出该百科站点中与移动应用相关联的百科页面;利用网络爬虫抓取筛选出的所述百科页面并存储;针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储;根据抽取的所述结构化知识,更新AllegroGraph中移动应用的属性信息,同时返回一个更新文件提示原始的数据库进行移动应用图谱数据的同步更新补全。

    一种动态URL过滤方法及装置

    公开(公告)号:CN104573033A

    公开(公告)日:2015-04-29

    申请号:CN201510020876.7

    申请日:2015-01-15

    CPC classification number: G06F17/30876 G06F17/30887

    Abstract: 本发明提出了一种动态URL过滤方法及装置,该方法包括:基于URL标注集创建信息字典;针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;对URL特征矩阵进行分类得到特征权重向量和二分类阈值;基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。本发明可以离线处理,不需要访问网络、减少了存储,比较节省处理时间和计算资源。

Patent Agency Ranking