网站聚类方法、系统、计算机设备和存储介质

    公开(公告)号:CN114912524A

    公开(公告)日:2022-08-16

    申请号:CN202210520075.7

    申请日:2022-05-13

    Inventor: 黄旗亮 宓晨希

    Abstract: 本申请涉及一种网站聚类方法、系统、计算机设备和存储介质,其中,该方法包括:对待聚类网站进行解析,得到对应的DOM树结构;提取DOM树结构的各类节点,根据DOM树结构的各类节点得到相应的匹配向量;基于匹配向量对待聚类网站进行聚类,得到聚类结果。通过本申请,解决了大量网站页面聚类时,相似度计算复杂的问题,实现了通过计算匹配向量的方案替代现有技术中通过复杂算法进行DOM树相似度计算方法,能够适用于大体量级的网站聚类问题,并且提高了聚类效率。

    目标信息生成方法、装置、计算机设备及存储介质

    公开(公告)号:CN115082062A

    公开(公告)日:2022-09-20

    申请号:CN202210617690.X

    申请日:2022-06-01

    Inventor: 宓晨希 陈兰兰

    Abstract: 本申请涉及一种目标信息生成方法,该方法包括:获取暗网的交易数据,该交易数据包括用户编号以及与所述用户编号对应的交易信息;对交易数据进行标准化处理,生成用户标准化数据和交易标准化数据;基于交易数据,确定用户编号之间是否存在关联;在存在关联的情况下,基于相关联的用户编号所对应的用户标准化数据和交易标准化数据生成群体目标信息;在不存在关联的情况下,基于不关联的用户编号所对应的用户标准化数据和交易标准化数据生成个体目标信息。通过用户编号之间的关联性确定目标信息的类型,提高了交易数据分析的完整性和有效性。

    非法网站识别方法、装置、电子装置和存储介质

    公开(公告)号:CN114817808A

    公开(公告)日:2022-07-29

    申请号:CN202210457027.8

    申请日:2022-04-28

    Abstract: 本申请涉及一种非法网站识别方法、装置、电子装置和存储介质,其中,该非法网站识别方法包括:获取待识别网站的第一特征向量,所述第一特征向量基于所述待识别网站的网页文本内容生成;将所述待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站;获取所述疑似非法网站的第二特征向量,所述第二特征向量基于所述疑似非法的网页要素生成;将所述疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得所述非法网站。通过本申请,解决了现有技术中存在的网站识别效率低、准确率低的问题,实现了在海量网站中精确高效地识别非法网站的效果。

    一种异常网站置信度评估方法、装置、设备及存储介质

    公开(公告)号:CN117056582A

    公开(公告)日:2023-11-14

    申请号:CN202310686232.6

    申请日:2023-06-09

    Abstract: 本申请公开了一种异常网站置信度评估方法、装置、设备及存储介质,涉及网络犯罪技术领域,包括:对收集到的异常网站网址数据进行数据预处理以得到目标异常网站网址库;对所述目标异常网站网址库中的数据信息进行预设关键特征提取以得到所述数据信息的关键特征信息;根据所述关键特征信息进行画像操作以得到对应的维度标签;建立所述异常网站网址之间的关联关系,以得到各所述异常网站网址对应的关联网址;从各所述维度标签和各所述关联网址中分别确定待判断异常网站网址的目标维度标签和目标关联网址,以确定出所述待判断异常网站网址的异常网站置信度评估结果。这样一来,可以减少对异常网站目标进行处置过程中误报误封情况的发生。

    一种互联网黑灰产APK的识别方法、装置、设备及介质

    公开(公告)号:CN116738420A

    公开(公告)日:2023-09-12

    申请号:CN202310684978.3

    申请日:2023-06-09

    Abstract: 本申请公开了一种互联网黑灰产APK的识别方法、装置、设备及介质,涉及黑灰产识别技术领域,包括:获取APK文件,利用预设工具对所述APK文件进行静态解析,以获取所述APK文件对应的静态资源文件和源代码文件;将所述静态资源文件和所述源代码文件存储至预设存储空间中;将所述预设存储空间中的内容与预设指纹库中的内容进行比对,以得到比对结果;所述预设指纹库中包括指纹的唯一标识符、指纹名称、指纹属性、指纹合法性信息以及指纹特征内容;基于所述比对结果对所述APK文件进行识别分析。可见,本申请提供了一种互联网黑灰产APK的识别方法,通过静态解析技术,构造APK指纹库,分析识别APK,为网络空间治理提供线索。

    一种同源网站扩展的方法、装置及介质

    公开(公告)号:CN114707096A

    公开(公告)日:2022-07-05

    申请号:CN202210329980.4

    申请日:2022-03-31

    Inventor: 黄旗亮 宓晨希

    Abstract: 本申请涉及互联网领域,公开了一种同源网站扩展的方法、装置及介质,包括:获取待扩展网站URL和任务相关参数,对待扩展网站URL发起HTTP或HTTPS请求得到响应信息,从响应信息中提取网站特征得到网站特征集合,并从网站特征集合中选取目标网站特征,并转换为网络空间搜索引擎可识别的查询字符串,网络空间搜索引擎根据任务相关参数验证目标网站特征的标志性以确定待扩展网站对应的同源网站。由此,基于网络空间搜索引擎实现了自动提取待扩展网站的网站特征,并自动将网站特征转换为网络空间搜索引擎可识别的查询语言,以及自动对网站特征进行验证以确定待扩展网站对应的同源网站,避免了人工提取、转换和验证网站特征的低效率。

    一种识别黑灰产数据的方法、装置及介质

    公开(公告)号:CN114707049A

    公开(公告)日:2022-07-05

    申请号:CN202210319369.3

    申请日:2022-03-29

    Inventor: 宓晨希 王欣

    Abstract: 本发明提供的一种识别黑灰产数据的方法、装置及介质,适用于互联网技术领域。获取当前的流量数据和恶意网址数据库;根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据;将与恶意网址数据匹配的当前的流量数据作为流量数据包;分析流量数据包以提取对应的流量特征;根据流量特征对当前的流量数据筛选得到黑灰产数据。该方法通过将当前的流量数据与恶意网址数据库的恶意网址数据匹配得到流量数据包,进一步提取流量特征,进而根据流量特征全面筛选当前的流量数据得到黑灰产数据。避免现有的根据人工经验筛选导致的不精准全面问题,提高筛选速度。

Patent Agency Ranking